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Vorbemerkung 

Wie ist das Skript aufgebaut? Das Skript entspricht im Prinzip einer typischen Einfuhrung in das 
Gebiet des Data Minings: 

• Einfuhrung, Motivation, Grundlagen 

• Datenvorbereitung 

• Eigentliches Data Mining 

• Bewertung der Resultate 

Nur den Block zum eigentlichen Data Mining habe ich etwas anders aufgebaut. Meistens findet 
man in Lehrbiichern Abschnitte, die sich ausschliefilich z.B. mit Klassifizierung beschaftigen. Dort 
werden auch alle Verfahren behandelt, die fiir Klassifizierung geeignet sind. Dies hat sich aus meiner 
Sicht als ungeschickt herausgestellt, da z.B. Entscheidungsbaume sowohl fiir Klassifizierung als auch 
die numerische Vorhersage geeignet sind. 

Folglich habe ich die Aufteilung etwas anders vorgenommen. Zunachst wird im Kapitel 3 etwas zu 
Anwendungsklassen gesagt. Im Kapitel 4 wird auf geeignete Darstellungsmoglichkeiten fiir Data- 
Mining-Modelle eingegangen. Im Kapitel 5 werden dann die Algorithmen und Verfahrensklassen 
behandelt. Man wird also zum Thema Assoziation in alien 3 Kapiteln etwas finden. 

Die Datenvorbereitung (Kapitel 6) habe ich, obwohl diese Phase natiirlich in einem Data-Mining- 
Prozess die erste ist, weiter hinten platziert, da dies fiir den Leser (nach dem Beherrschen der 
DM-Algorithmen) wohl einfacher zu verstehen ist. 

Das Standard-Buch zur Vorlesung ist [CL14]. 

Fiir Hinweise, Kritiken beziiglich dieses Skripts bin ich sehr dankbar. 
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Data you don’t need is never lost. 

Ander’s first negative Principle of Computers 


1.1 Data Mining und Business Intelligence 

Business Intelligence (BI) ist ein relativ neuer Begriff. Ausgangspunkt ist die Beobachtung, dass in 
Zeiten der Cflobalisierung und des Internets ein effektiver und effizienter Umgang mit dem in einem 
Unternehmen verfiigbaren Wissen nicht nur ein Wettbewerbsvorteil, sondern fiir das Uberleben 
wichtig ist. 

Deshalb entstand eine Reihe von Techniken, Programmen etc., die sich diesem Problem widme- 
ten. Unter Business Intelligence werden heute diese Techniken und Architekturen fiir eine effizi- 
ente Verwaltung des Unternehmenswissens zusammengefasst, naturlich einschliefslich verschiedener 
Auswertungsmoglichkeiten. Die Aufgaben von BI sind also: Wissensgewinnung, -verwaltung und - 
verarbeitung. BI hat somit (aus Informatik-Sicht) viele Querbeziige zum Informationsmanagement, 
zu Datenbanken/Data Warehouse, zur Kiinstlichen Intelligenz, zum Data Mining (inkl. OLAP, Sta- 
tistik). 

Es gibt bis heute nicht die Definition des Begriffs Business Intelligence. 

Unter Business Intelligence im engeren Sinn versteht man die Kernapplikationen, die eine Entschei- 
dungsfindung direkt unterstiitzen. Hierzu zahlt man z.B. das Online Analytical Processing (OLAP), 
die Management Information Systems (MIS) sowie Executive Information Systems (EIS). 

Ein etwas weiterer BI-Begriff stellt die Analysen in den Vordergrund. Folglich gehoren hierzu alle 
Anwendungen, bei denen der Nutzer Analysen durchfiihrt bzw. vorbereitet. Neben den oben genann- 
ten Anwendungen zahlt man nun auch z.B. das Data Mining, das Reporting sowie das analytische 
Customer Relationship Management dazu. 

BI im weiten Verstandnis umfasst nun alle Anwendungen, die im Entscheidungsprozess benutzt 
werden, also z.B. auch Prasentationssysteme sowie die Datenspeicherung und -verwaltung. 

In der folgenden Abbildung aus [KMU06] sind die 3 Sichtweisen dargestellt. 


Prozess- 

phase 


Daten- 
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Abbildung Business Intelligence [KMU06] 


Schwerpunkt dieser Vorlesung sind die Techniken zur Wissensextraktion, also dem Data Mining. 
Wir betrachten also nur einen kleinen Ausschnitt aus dem Bl-Spektrum. 
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Fur weiterfiihrende Informationen sei auf [ML13] und [TSDK11] verwiesen. 

1.2 Auswertung von Massendaten 

Die Menge an verfiigbaren Daten verdoppelt sich in immer kiirzeren Abstanden. Jedes Unternehmen, 
jede Institution sammelt freiwillig oder aufgrund rechtlicher Bestimmungen Unmengen an Daten. 
Zunachst einige Beispiele aus einem zwar alteren Buch (2000); die Situation diirfte sich aber bis 
heute weiter verscharft haben. 

Industrielle Prozessdaten Zur Analyse der Altpapieraufbereitung in einer Papierfabrik stehen 
an jeder der 8 Delnking-Zellen jeweils 54 Sensoren zur Verfiigung. 3800000 Messwerte pro Tag 
([RunOO]). 

Umsatzdaten WalMart fiihrte eine Warenkorb-Analyse durch, 20 Mio Transaktionen pro Tag, 
eine 24 TByte-Datenbank ([RunOO]). 

Genom-Daten In vielen Genom-Projekten wird versucht, aus den Genomen Informationen zu 
extrahieren. Das menschliche Genom enthalt 60000-80000 Gene; 3 Milliarden DNA-Basen 
([RunOO]). 

Bilder Die NASA nimmt mit ihrem Earth Observing System Oberflachenbilder der Erde auf. 50 
GByte pro Sekunde ([RunOO]). 

Textinformationen Das WWW enthalt eine Unmenge von Daten und Informationen. 

Die Frage, die sich natiirlich sofort ergibt: Was machen wir mit den ganzen Daten, die wir tag- 
lich sammeln? Zur Auswertung von umfangreichen Daten reicht „Draufschauen“ nicht mehr aus. 
Auch die Statistik stofit haufig an ihre Grenzen. Vielmehr braucht man weitere Datenanalyse- 
Techniken. Man sucht nach Mustern, nach Zusammenhangen etc., um so z.B. Vorhersagen fiir 
ein bestimmtes Kundenverhalten treffen zu konnen. Dies ist Gegenstand des Data Minings. Haufig 
weifi man am Anfang gar nicht, wonach man eigentlich sucht. Das konnen unbekannte Muster bzw. 
Abhangigkeiten oder auch die Einteilung von Objekten in unbekannte oder bekannte Klassen sein. 
Folgende reale Anwendungsbeispiele verdeutlichen die praktische Relevanz dieses hochaktuellen Ge- 
biets: 

• Erzeugen eines Entscheidungsbaums (generiert aus alten Kreditdaten) als Entscheidungshilfe 
fiir die Bewertung der Kreditwiirdigkeit eines Kunden 

• Generierung von Mustern von typischen Reisenden, um den Verkauf von Billigfliigen oder 
-urlauben zu managen 

• Windeln und Bier: Analyse des Kaufverhaltens ergibt, dass derjenige, der Windeln kauft, sehr 
haufig auch Bier kauft, aber nicht umgekehrt. 

• Analyse der Gene bei Diabetes-Kranken, um typische Gene zu erkennen 

Aber auch bei ldeinen Problemen kann Data Mining hilfreich sein. In Abbildung 1 auf der nachsten 
Seite ist fiir die Klausur Theoretische Informatik, SG WI, 2013/14 ein Entscheidungsbaum zur 
Vorhersage der Note dargestellt. 

1.3 Ablauf einer Datenanalyse 

Folgende Phasen unterscheidet man beim Data Mining: 

Selektion Auswahl der geeigneten Datenmengen 
Datenvorverarbeitung Skalierung, Ausreifser ... 

Transformation Umwandlung in adaquate Datenformate 
Data Mining eigentliches Suchen nach Mustern etc. 

Interpretation / Evaluation Interpretation der Ergebnisse und Auswertung 


1.3 Ablaut einer Datenanalyse 
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Abbildung 1: Entscheidungsbaum fur die TI-Klausur 2013/14 



Abbildung 2: Ablauf eines Data-Mining-Prozesses [FPSS96] 


In Abbildung 2 ist der Ablauf dargestellt. 

Hauhg bezeichnet man den Gesamtprozess auch als Knowledge Discovery in Databases (KDD) 
und nur das eigentliche Data Mining als solches. 

Einige Erlauterungen zu den in Abb. 2 dargestellten Schritten: Im Vorfeld des Prozesses wird Wissen 
iiber den gewiinschten Anwendungsbereich gesammelt sowie die Zielsetzung der Analyse festgelegt. 
Die Analyse von Rahmenbedingungen bildet einen weiteren Bestandteil der Vorbereitung. Diese 
lassen sich mit Hilfe eines Losungsszenarios herauskristallisieren. Dabei wird festgestellt, welche 
Optionen der KDD-Prozess beinhalten kann und welche aus finanziellen, organisatorischen oder 
auch politischen Griinden nicht herangezogen werden. 

CRISP Data-Mining-Modell 

Ein zweites DM-Prozess-Modell ist das CRISP-Modell. Das CRISP-DM-Modell wurde durch NCR, 
Daimler-Benz, ISL, OHRA entwickelt. CRISP-DM steht fiir Cross Industry Standard Process for 
Data Mining (http://www.crisp-dm.org/). Ziel ist, einen Data-Mining-Prozess zu defmicren und 
das berechnete Modell zu validieren. 

Man geht von einem Lebenszyldus in 6 Etappen aus (vgl. Abb. 3 auf Seite 9): 

1. Verstehen der Aufgabe 

2. Verstandnis der Daten 
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3. Datenvorbereitung 

4. Data Mining (Modellbildung) 

5. Evaluation 

6. Einsatz im & Konsequenzen fur Unternehmen 
Man kann diese Etappen noch weiter untersetzen: 

1. Verstehen der Aufgabe 

• Bestimmen der Firmenziele (Hintergrund, Ziele, Erfolgskriterien) 

• Assess Situation (welche Ressourcen, Restriktionen, Risiken, Begriffe, Kosten und Nut- 
zen) 

• Formulierung der Data-Mining-Ziele (Ziele und Erfolgskriterien) 

• Projektplan erstellen 

2. Verstandnis der Daten 

• Initiate Daten sammeln 

• Daten beschreiben 

• Daten untersuchen 

• Datenqualitat priifen 

3. Datenvorbereitung 

• Datenselektion 

• Daten saubern 

• Neue Daten/Attribute einfiigen 

• Daten zusammenfuhren 

• Daten formatieren 

4. Data Mining (Modellbildung) 

• Technik wahlen 

• Tests konzipieren 

• Parameter fiir Verfahren setzen 

• Tests durchfiihren und ggf. mit modifizierten Parametern wiederholen 

5. Evaluation 

• Erfolgskriterien auf Resultate anwenden 

• Prozess analysieren, Fehleranalyse 

• Nachsten Schritt festlegen, z.B. zuriick zu Phase 3 oder 4 

6. Einsatz, Konsequenzen fiir Firrna 

• Einsatz planen 

• Monitoring und Unterstiitzung planen 

• Endbericht erstellen 

• Projekt analysieren 

Die CRISP-Untergliederung unterscheidet sich von Abb. 2 auf der vorherigen Seite, wo die Punkte 
1-2 und 6 des CRISP-Modells nicht enthalten sind. Der Schritt 3 des CRISP-Modells enthalt die 
ersten 3 Phasen des obigen Modells. Wir werden uns im folgenden am in Abb. 2 dargestellten Ablauf 
orientieren. 

Wir werden auch zwischen den Begriffen Data Mining und KDD nicht unterscheiden und diese 
haufig synonym verwenden. 

Im folgenden wenden wir uns nun detaillierter den Teilphasen des Fayyad-Mo dells (Abb. 2) zu. 


1.3 Ablaut einer Datenanalyse 


9 



Abbildung 3: CRISP-Modell 


1.3.1 Datenselektion 

In der ersten Phase des KDD-Prozesses sind die Daten, die fur die vom Anwender angeforderte 
Analyse benotigt werden oder geeignet erscheinen, zu bestimmen und aus den gegebenen Daten- 
quellen zu extrahieren. Neben dem Basisdatenbestand konnen auch externe Daten fiir die Analyse 
herangezogen werden. So bieten z.B. Adressbroker Informationen an, mit denen Kunden oder Inter- 
essenten zusatzlich qualifiziert werden konnen. In der Phase der Datenselektion wird gepriift, welche 
Daten notig und verfugbar sind, um das gesetzte Ziel zu erreichen. Konnen die selektierten Daten 
aufgrund technischer oder rechtlicher Restriktionen nicht in einen Zieldatenbestand iiberfiihrt wer¬ 
den, ist die Datenselektion erneut vorzunehmen. Technische Restriktionen, die die Uberfiihrung in 
einen Zieldatenbestand verhindern, sind z.B. Kapazitats- und Datentypbeschrankungen des Ziel- 
systems oder fehlende Zugriffsrechte des Anwenders. Eine Moglichkeit, diese Probleme (zumindest 
zum Teil) zu umgehen, ist die Beschrankung der Auswahl auf eine representative Teildatenmenge 
des Gesamtdatenbestands. 

1.3.2 Datenvorverarbeitung 

Da die Zieldaten aus den Datenquellen lediglich extrahiert werden, ist im Rahinen der Datenvor¬ 
verarbeitung die Qualitat des Zieldatenbestands zu untersuchen und - sofern notig - durch den 
Einsatz geeigneter Verfahren zu verbessern. Aufgrund technischer oder menschlicher Fehler kon¬ 
nen die Daten operative!’ Systeme fehlerhafte Elemente enthalten. Man rechnet damit, dass bis zu 
5% der Felder eines realen Datenbestands falsche Angaben aufweisen. Die Kenntnis der Schwa- 
chen der Analysedaten ist fiir die Qualitat der Untersuchungsergebnisse wichtig. Die Anwender der 
Analysewerkzeuge miissen auf die Zuverlassigkeit und Korrektheit der Daten vertrauen konnen. 
Fehlerhafte Daten verfalschen moglicherweise die Resultate, ohne dass der Anwender von diesen 
Mangeln Kenntnis erlangt. 

Fehlende Informationen verhindern eventuell die Berechnung wichtiger Kennzahlen. Die zuneh- 
rnende Durchfiihrung (teil-)automatisierter Datenanalysen hat eine erhohte Anfalligkeit gegeniiber 
Datenmangeln zur Folge, der durch geeignete Mechanismen zur Erkennung und Beseitigung solcher 
Schwachen zu begegnen ist. Eine hauhge, leicht zu identifizierende Fehlerart besteht in fehlenden 
Werten. Zur Behandlung von fehlenden Werten stehen unterschiedliche Techniken zur Verfiigung. 
Gangige Ersetzungsstrategien fiir numerische Attributauspragungen sind das Einsetzen eines Null- 
wertes, eines Mittel-, Maximal- oder Minimalwertes oder des Medians von Attributwerten innerhalb 
der Grundgesamtheit, einer reprasentativen Teilmenge oder einer Klasse. Bei nichtnumerischen At- 

















10 


1 EINFUHRUNG 


tributauspragungen kann es dagegen sinnvoll sein, die haufigste Attributauspragung einzusetzen. 
Eine weitere Moglichkeit, Attribute zu ersetzen, ist die nachtragliche manuelle Erhebung der feh- 
lenden Daten. Das kann aber zu einem unverhaltnismafiig hohen Aufwand fiihren. Eine weitere 
potentielle Fehlerart wird durch Ausreifter hervorgerufen. Dabei handelt es sich um Wertauspra- 
gungen, die stark vom Niveau der iibrigen Werte abweichen. Bei diesen Auspragungen kann es sich 
um korrekt erfasste Daten handeln, die damit Eingang in die Analyse finden oder aber um falsche 
Angaben, die nicht berucksichtigt werden diirfen und daher aus dem Datenbestand zu loschen sind. 
Die Erkenntnisse, die der Benutzer eines Data-Mining-Systems in dieser Phase iiber den Datenbe¬ 
stand gewinnt, konnen Hinweise auf die Verbesserung der Daten qualitat der operativen Systeme 
geben. 

1.3.3 Datentransformation 

Die im Unternehmen verfiigbaren Rohdatenbestande erweisen sich haufig in ihrer Ursprungsform 
als nicht fur Data-Mining-Analysen geeignet. In der Phase der Datentransformation wird der ana- 
lyserelevante Zieldatenbestand in ein Datenbankschema transformiert, das von dem verwendeten 
Data-Mining-System verarbeitet werden kann. Dabei konnen neue Attribute oder Datensatze gene- 
riert bzw. vorhandene Attribute transformiert werden. Dieser Schritt ist notig, da Analyseverfahren 
spezifische Anforderungen an die Datenstruktur der Eingangsdaten stellen. Ziel der Transformation 
ist insbesondere die Gewahrleistung invarianter Datendarstellungsformen (z.B. durch Ubersetzung 
textueller Informationen in eindeutige Schliissel oder Kodierungen) sowie die Einschrankung von 
Wertebereichen zur Verringerung der Anzahl zu betrachtender Auspragungen (Dimensionsredukti- 
on). Letzteres kann durch Verallgemeinerung von Attributwerten auf eine hohere Aggregationsstufe, 
z.B. durch Nutzung von Taxonomien oder durch Bildung von Wertintervallen geschehen, wodurch 
sich die Granularitat der Daten andert. 

1.3.4 Data Mining 

Liegen geeignete Datenbestande in akzeptabler Qualitat vor, konnen die Analysen durchgefiihrt 
werden. In dieser Phase erfolgt die Verfahrensauswahl und deren Einsatz zur Identifikation von 
Mustern auf der Basis des vorbereiteten Datenbestandes. In einem ersten Schritt wird zunachst 
entschieden, welche grundlegende Data-Mining-Aufgabe (z.B. Klassifizierung oder Cluster-Bildung) 
vorliegt. Daran schliefst sich die Auswahl eines geeigneten Data-Mining-Verfahrens an. Nach der 
Auswahl eines fiir die konkrete Problemstellung geeigneten Verfahrens muss dieses konfiguriert wer¬ 
den. Diese Parametrisierung bezieht sich auf die Vorgabe bestimmter methodenspezifischer Werte, 
w T ie z.B. die Festlegung minimaler relativer Haufigkeiten fiir einen Interessantheitsfilter, die Auswahl 
der bei der Musterbildung oder -beschreibung zu beriicksichtigenden Attribute oder die Einstellung 
von Gewichtungsfaktoren fiir einzelne Eingabevariablen. Wenn eine zufriedenstellende Konfiguration 
gefunden wurde, kann mit der Suche nach interessanten Mustern in den Daten begonnen werden. 

1.3.5 Evaluation und Interpretation 

In dieser Phase des KDD-Prozesses werden die entdeckten Muster und Beziehungen bewertet und 
interpretiert. Diese Muster sollen den Anforderungen der Gultigkeit, Neuartigkeit, N-iitzlichkeit und 
Verstandlichkeit geniigen, um neues Wissen zu reprasentieren und einer Interpretation zuganglich 
zu sein. Letztere ist Voraussetzung fiir die Umsetzung der gewonnenen Erkenntnisse im Rahmen 
konkreter Handlungsmafinahmen. Bei weitem nicht alle der aufgedeckten Muster erfiillen jedoch 
diese Kriterien. Die Analyseverfahren fordern haufig viele Regelmafiigkeiten zutage, die irrelevant, 
trivial, bedeutungslos oder bereits bekannt waren, aus denen dem Unternehmen folglich kein Nut- 
zen erwachsen kann, oder die unverstandlich bzw T . nicht nachvollziehbar sind. Die Bewertung von 
Mustern kann anhand des Kriteriums der Interessantheit vollzogen werden. Folgende Dimensionen 
der Interessantheit sind sinnvoll: 

• Die Validitat eines Musters ist ein objektives Mafi dafiir, mit welcher Sicherheit das gefundene 
Modell (z.B. ein Muster oder eine Assoziationsregel) auch in Bezug auf neue Daten giiltig ist. 
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• Das Kriterium der Neuartigkeit erfasst, inwieweit ein Muster das bisherige Wissen erganzt 
oder im Widerspruch zu diesem steht. 

• Die Verstandlichkeit misst, wie gut eine Aussage von einem Anwender verstanden werden 
kann. 

• Das Kriterium der Niitzlichkeit eines Musters erfasst den praktischen Nutzen fur den An¬ 
wender. 

Die korrekte Interpretation von Data-Mining-Ergebnissen erfordert ein hohes Mafi an Domanen- 
kenntnissen. Die Interpretation dient dazu, das Domanenwissen des Anwenders effektiv zu veran- 
dern. Im Idealfall sollte ein Team von Experten aus unterschiedlichen Bereichen gebildet werden, 
um sicherzustellen, dass die Bewertung korrekt ist und die gewonnenen Informationen bestmoglich 
genutzt werden. Die Interpretationsphase lasst sich durch geeignete Prasentationswerkzeuge sowie 
durch die Verfugbarkeil zusatzlicher Informationen iiber die Anwendungsdomane unterstiitzen. Ty- 
pischerweise erfolgt in dieser Phase ein Rucksprung in eine der vorherigen Phasen. So ist meist eine 
Anpassung der Parameter oder die Auswahl einer anderen Data-Mining-Technik notig. Es kann 
auch erforderlich sein, zur Datenselektionsphase zuriickzukehren, wenn festgestellt wird, dass sich 
die gewunschten Ergebnisse nicht mit der benutzten Datenbasis erreichen lassen. 
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2 Data Mining - Grundlagen 

If you file it, you ’ll know where it is but you ’ll never 
need it. If you don’t file it, you’ll need it but never 
know where it is. 

Tillis’s Organizational Principle 


2.1 Begriffe 

Definition 2.1 (Daten). Ansammlungen von Zeichen mit der dazugehorigen Syntax werden Daten 
genannt. 

Daten ist der Plural des lateinischen Datum , d.h. ein Informationselement. Man unterscheidet: 

• unstrukturierte Daten (Bild, Text) 

• semistrukturierte Daten (WWW-Seiten) 

• strukturierte Daten (Datenbanken) 

Definition 2.2 (Information). Werden Daten mit einer Bedeutung gekoppelt, handelt es sich um 
Informationen. 

Eine Information ist also die zweckbestimmte Interpretation von Daten durch den Menschen. Daten 
bestehen zunachst nur aus Fakten und werden erst dann zur Information, wenn sie im Kontext 
betrachtet werden und eine Bedeutung fur den Menschen erhalten. 

Definition 2.3 (Wissen). Eine Information in Verbindung mit der Fahigkeit, diese zu benutzen, 
wird als Wissen bezeichnet. 

Eine Information wird folglich erst dann zu Wissen, wenn man mit ihr etwas anzufangen weifi. 

Definition 2.4 (Data Mining). Beim Data Mining (Datenschiirfen) handelt es sich um die Extrak- 
tion von Wissen aus Daten. 

Data Mining ist die nichttriviale und automatische Suche nach Wissen in Massendaten. Man 
unterscheidet: 

• Data Mining i.e.S. (strukturierte Daten) 

• Web Mining (semistrukturierte Daten) 

• Text Mining (unstrukturierte Daten) 

2.2 Zwei Beispiele 

In Warenhausern werden an den Kassen die verkauften Waren elektronisch erfasst. Diese Daten wer¬ 
den in Datenbanken abgelegt, wodurch riesige Datenbestande fiber Verkaufsumsatze zur Verfiigung 
stehen. 

Mit Hilfe von Data-Mining-Verfahren konnen nun verschiedene Analysen auf diesen Daten durch- 
gefiihrt werden: 

• Welche Waren werden hauhg gemeinsam mit anderen gekauft? Das Ergebnis dieser Frage 
kann dazu verwendet werden, Waren im Warenhaus diesem Zusammenhang entsprechend 
anzuordnen. So kann bei einern Kunden, der urspriinglich lediglich Produkt A kaufen wollte, 
auch das latente Bediirfnis nach Produkt B geweckt werden. 

• Wann werden welche Waren in welchen Mengen gekauft? Mit einer guten Vorhersage von 
Verkaufszahlen lasst sich das Lagermanagement optimieren. Zum einen konnen die Lager- 
haltungskosten verringert werden. Zum anderen kann aber auch die Kundenzufriedenheit und 
somit die Kundenbindung dadurch erhoht werden, indern Waren zum Nachfragezeitpunkt auch 
tatsachlich vorratig sind. 
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Bei Versandhausern werden personliche Daten von Kunden erhoben und gesammelt - auch solche, 
die fur den eigentlichen Bestellvorgang nicht unbedingt notig sind (Haben Sie schon einmal in einem 
Versandhaus eingekauft, ohne Ihr Geburtsdatum und Ihre Telefonnummer angeben zu miissen?). 
Viele Versandhauser versenden in regelmafiigen Abstanden Werbebriefe an all ihre Kunden. Nicht 
selten landen diese ungelesen im Altpapier, da sich ein schlanker Mann nach der dritten Kleider- 
Reklame fiir mollige Frauen vom Versandhaus belastigt fiihlt. So bleibt auch die Werbung ungelesen, 
die vielleicht sein Interesse gefunden hatte. Verschwendung - nicht nur aus okonomischer, sondern 
auch aus okologischer Sicht. Abhilfe dabei kann ein gezieltes Data Mining z.B. auf folgende Weise 
schaffen: 

• Erkennen von Kundengruppen 

• Zuschneiden von Werbeprospekten auf diese Kundengruppen 

• gezieltes Versenden von Werbeprospekten an konkrete Zielgruppen 

2.3 Interdisziplinaritat 

Es gibt eine ganze Reihe von Beziigen des Data Mining zu anderen Disziplinen. Data Mining ist 
hochst interdisziplinar (s. Abb. 4). 



2.3.1 Datenbanken und Data Warehouses 

Datenbanken bilden in vielen Fallen die Grundlage des Data Minings. Haufig wird in bereits existie- 
renden Datenbestanden nach neu zu entdeckenden Zusammenhangen oder Auffalligkeiten gesucht. 
Im Sinne einer umfassenden Informationsbasis vereint ein Data Warehouse interne Datenbanken 
mit externen Daten. Zwei Ziele des Data Warehousing werden hier exemplarisch vorgestellt: 

• Ein wesentliches Problem, das bei der Vereinigung von Daten verschiedener Quellen auftreten 
kann, betrifft die unterschiedliche Bezeichnung identischer Entitaten. So werden z.B. in drei 
verschiedenen Mathematikbuchern mindestens zwei verschiedene Formelzeichen fiir ein und 
denselben Sachverhalt verwendet. Dieses ist eins der Probleme, die ein Data Warehouse losen 

soil. 

• Ein weiteres Ziel eines Data Warehouse ist die Historisierung von Informationen, darnit An- 
derungen auch zu spateren Zeitpunkten nachvollziehbar sind. 

Neben Datenbanken konnen natiirlich auch Textdateien oder WWW-Seiten Basis eines Data- 
Mining-Prozesses sein. 











2.4 Datentypen 
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2.3.2 Expertensysteme 

Expertensysteme versuchen, einen oder mehrere qualifizierte menschliche Experten bei der Problem- 
losung in einem abgegrenzten Anwendungsbereich zu simulieren. Sie enthalten grofie Wissensmengen 
iiber ein eng begrenztes Spezialgebiet. Sie beriicksichtigen auch Faustregeln, mit denen Erfahrungen 
aus den Teilgebieten fur spezielle Probleme nutzbar gemacht werden. 

2.3.3 Maschinelles Lernen 

Der Begriff Lernen umfasst viele komplexe Aspekte. Nicht jeder davon kann auf einem Rechner 
nachgebildet werden. Beim Maschinellen Lernen (engl. Machine Learning) geht es im Wesentlichen 
darum, Lernverfahren (computerbasiert) verfiigbar zu rnachen, so dass das Programm aus Einga- 
beinformationen Wissen konstruieren oder verbessern kann. 

Bei maschinellen Lernsystemen ist - wie auch in der menschlichen Psychologie - die einfachste 
Lernstrategie das Auswendiglernen. Dabei wird das prasentierte Wissen einfach in einer Liste oder 
Datenbank abgespeichert. Eine ebenso einfache Form des Maschinenlernens ist das unmittelbare 
Einprogrammieren des Wissens in den Sourcecode des entsprechenden Programms. 

Dies ist jedoch nicht das, was in der Kiinstlichen Intelligenz mit Maschinellem Lernen gemeint 
ist. Hier wird mehr ein Verstandnis von Zusammenhangen und Flintergrunden (z.B. das Erkennen 
von Mustern oder Abhangigkeiten) angestrebt, sprich das Erzeugen von neuem. Wissen (induktives 
Lernen). 

2.3.4 Statistik 

Statistik ist ein weiterer wichtiger Baustein des Data Alining. In der Datenverarbeitung steht in 
vielen Fallen neben der Genauigkeit der Ergebnisse auch die Geschwindigkeit sowohl der Vorberei- 
tung des Verfahrens als auch der Entscheidungsfindung selbst im Vordergrund. Nicht immer ist es 
moglich oder sinnvoll, ein maschinelles Lernverfahren zu entwickeln und anzuwenden. Manchmal 
bringen auch schon statistische Losungen einen ausreichenden Erfolg. Des weiteren konnen statisti- 
sche Verfahren dabei helfen zu erkennen, ob Data Alining iiberhaupt zu einem gewiinschten Ergebnis 
fiihren konnte. 

2.3.5 Visualisierung 

Visualisierung spielt eine grofie Rolle, da Data Mining meistens zur Entscheidungsfindung oder - 
unterstiitzung eingesetzt wird. Entscheidungen werden nicht immer von den Personen getroffen, die 
direkt am Prozess des Data Minings beteiligt sind. Gefundenes Wissen anschaulich und nachvoll- 
ziehbar darzustellen, ist folglich fiir die Akzeptanz der Resultate wichtig. 

2.4 Datentypen 

Welche Arten von Daten konnen durch DM-Verfahren behandelt werden? Man unterscheidet fol- 
gende wichtige Datentypen: 

nominal Nominale Daten unterliegen keinerlei Rangfolge. Sie konnen lediglich nach dem Kriterium 
gleich bzw. nicht gleich sortiert werden. 

ordinal Ordinale Daten haben zumindest eine Ordnungsrelation (wie <). 

metrisch Metrische Daten besitzen alle Ordnungsmerkmale der reellen Zahlen. Man kann mit ihnen 
rechnen. 

Man kann diese Einteilung noch verfeinern. Z.B. kann man auch Intervall-basierte Datentypen 
betrachten. Gute Beispiele findet man z.B. in [Pyl99, S. 67]. 

In Tabelle 1 auf der nachsten Seite sind Beispiele fiir die Datentypen angegeben. Beachten Sie, 
dass die Grenze zwischen ordinal und metrisch durchaus fliefiend sein kann. Wir konnten z.B. die 
Schulnoten oder die Erdbebenstarke auch als metrische Attribute auffassen. Insbesondere kann man 
leicht ordinale in metrische Daten umwandeln. 

Betrachten wir ein Attribut mit den Auspragungen klein, mittelgrofl, grofl , sehr grofi , so konnen wir 
dies leicht in ein metrisches Attribut umwandeln, indem wir die Werte durch Zahlen ersetzen: 
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nominal 

ordinal 

metrisch 

Farbe 

Schulnote 

Flache 

Beruf 

Schuhgrofse 

Geschwindigkeit 

Familienstand 

Erdbebenstarke 

Korpergrofse 

Staatsangehorigkeit 

Altersgruppe 

Kinderzahl 


Tabelle 1: Beispiel Datentypen 


• klein —> 0 

• mittelgrofi —>• 0,3 

• grofi -> 0,7 

• sehr grofi —> 1 

Beachten Sie aber, dass wir durch die (willkiirliche) Wahl der Zahlen den Abstand zwischen den 
Werten festlegen und somit eventuell das Resultat beeinflussen. 


2.5 Abstands- und Ahnlichkeitsmafie 

Um Datensatze miteinander vergleichen zu konnen, braucht man Mafie, die die Ahnlichkeit von 
Datensatzen messen konnen. 

• dist(u,te): Abstand zweier Datensatze 

• simil(u, w): Ahnlichkeit zweier Datensatze 

Zur Bestimmung der Ahnlichkeit wird rneist der Abstand herangezogen: 

simil(r;,rc) = /(dist(i>, w)) 

Eine Abstandsfunktion (auch Distanzfunktion genannt) sollte folgende Eigenschaften erfiillen: 

• dist(x, x ) = 0 

• dist(x,y) = dist(y,:c) 

• dist(x, y) < dist(cc, z) + dist(z, y) 


Folgende typische Distanzfunktionen gibt es: 

• Hamming-Distanz: dist h(v,w) = counti(fi / wfi) 


Euklidische Distanz: dist^iyiy) = jYh{ v i ~ w i) 2 


• Manhattandistanz: dist s(v,w) = XXI' 1 ’* — u '*l) 

i 

• Maximumdistanz: distMax(^,^) = max(|t!j — Wi\) 

i 


Die Maximumdistanz wird haufig auch als Tschebyscheff-Distanz bezeichnet. 
Es gibt eine Erweiterung der euklidischen Distanz, die Minkowski-Distanz: 


dist Minkowski (Ti W) 



- Wifi 


Diese ist nur auf numerische Attribute anwendbar. 

In Abb. 5 auf der nachsten Seite ist ein Beispiel fur die 4 Distanzen gegeben. 

Beachten Sie, dass man bei den Beispielen im Kapitel 5 durchaus auch andere Distanzfunktion 
verwenden kann. Man muss also bei numerischen Attributen nicht zwingend immer die Euklidische 
Distanz nehmen. 

Einige weitere Ahnlichkeitsmafie werden in [RunlO] behandelt, z.B. Cosinus, Uberlapp, Dice, Jac- 
card. 







2.6 


Weitere Grundbegriffe 
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dist# = 2, dist£ « 8.9, distMan = 12, distMax = 8 


Abbildung 5: Beispiel Distanzen 


Aufgabe 2.1 (Distanz). Wenn man die Schritte des Konigs auf einem Schachbrett als Distanz wahlt, 
welchem Distanzbegriff entspricht das? Und welchem Begriff entspricht die Anzahl der Felder, die 
der Turm passieren miisste? 

Aufgabe 2.2 (Distanz). Berechnen Sie die Distanz zwischen den Punkten (0,1,2), (1,5,3) und 
(4,-2,3). Verwenden Sie dabei alle 4 aufgefiihrten Distanzfunktionen. 

Aufgabe 2.3 (Distanz). Suchen Sie weitere Abstandsmafie. 

Aufgabe 2.4 (Datentypen). Welchen Typ von Daten haben wir bei den Postleitzahlen: nominal, 
ordinal, metrisch? 

2.6 Weitere Grundbegriffe 

Data Alining beginnt mit einer gegebenen Menge von Beispielen. Diese nennt man Instanzenmenge 
oder Beispielmenge E. Auf einer Teilmenge von E lernt man, d.li. man benutzt diese, um z.B. 
Klassen zu bilden oder Assoziationen herzustellen. Dies ist die Trainingsmenge T C E. Erne 
weitere Teilmenge von E (rneist E\T ) benutzt man, um das Gelernte zu validieren. Diese Menge 
heifit folglich Validierungsmenge (oder Testmenge) V C E. 

Folgende (Lern-)Strategien gibt es: 

• Nicht-uberwachtes Lernen: Die zu entdeckenden Muster sind unbekannt (vgl. Clustern, Ab- 
schnitt 3.2). 

• Uberwachtes Lernen: Es werden Beispiele vorgegeben, z.B. Beispiele fur Nadel- oder Laub- 
baume (vgl. Klassifikation, Abschnitt 3.1). 
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3 Anwendungsklassen 
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All great discoveries are made by mistake. 
Young’s Law 


3.1 Klassifikation 

Ziel der Klassifikation ist die Einteilung eines Gegenstandsbereichs (z.B. Kunden) in Klassen 
(normale / sehr gute Kreditwiirdigkeit). Anhand einer vorgegebenen Trainingsmenge von bereits 
bekannten Objekten wird ein Modell (vgl. Abb. 6) aufgebaut. Dieses wird dann an Testdaten gepriift 
(vgl. Abb. 7) und gegebenenfalls korrigiert, bis es auf den Testdaten eine nur noch geringe Fehlerrate 
erfiillt. Dabei sind sowohl die Klassen als auch die Zugehorigkeit der Trainingsobjekte zu einer 
dieser Klassen vorher bekannt. Man spricht daher auch von uberwachtem Lernen. Ist die gelernte 
Klassifikation gut genug, kann man unbekannte Objekte aufgrund ihrer Eigenschaften in die Klassen 
einordnen (vgl. Abb. 8). 


Trainingsproben 


Name 

Alter 

Ein¬ 

kommen 

Kredit¬ 

wiirdigkeit 

Adam 

Beate 

Clemens 

Diana 

Egon 

Frank 

< 30 

< 30 

31...40 

> 40 

> 40 
31...40 

niedrig 

niedrig 

hoch 

mittel 

mittel 

hoch 

normal 
sehr gut 
sehr gut 
normal 
normal 
sehr gut 


Klassifikations- 

algorithmus 




Klassifikations- 
regeln (z.B.) 

WENN Alter = 31... 40 UND 
Einkommen = hoch DANN 
Kreditwiirdigkeit = sehr gut 


Abbildung 6: Klassifikation - Lernphase 


Testproben 


Name 

Alter 

Ein¬ 

kommen 

Kredit¬ 

wiirdigkeit 

Bewertung 
durch Regeln 

Gerda 

31... 40 

hoch 

sehr gut 

sehr gut 

Hanno 

31...40 

hoch 

normal 

sehr gut 

Inge 

> 40 

hoch 

sehr gut 



Abbildung 7: Klassifikation - Testphase 


Neue Daten 


Name 

Alter 

Ein¬ 

kommen 

Kredit¬ 

wiirdigkeit 

Bewertung 
durch Regeln 

Jochen 

Karl 

31... 40 

hoch 

?? 

sehr gut 


Abbildung 8: Klassifikation - Anwendungsphase 

Die Rolle des Lernverfahrens besteht darin zu erkennen, welche der gegebenen Eigenschaften (Alter, 
Einkommen, ... ) bestimmend fur die Klasseneinordnung (Kreditwiirdigkeit) sind. 

Ergebnis der Klassifikation muss nicht in jedem Fall eine eindeutige Klasse sein. Oftmals ist auch 
die Wahrscheinlichkeit fiir alle Klassen von Interesse. 


Beispiel 3.1 (Klassifikation). 
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• Vorhersage, ob ein bestimmter Kunde auf eine Werbeaktion reagieren wird 

• Zeichenerkennung (Kfz-Kennzeichen, Adressen etc.) 

• Vorhersage von Erdbebenwahrscheinlichkeiten 

Einige Verfahren: 

• Induktion von Entscheidungsbaumen 

• Induktion von Klassifikationsregeln 

• Neuronale Feedforward Netze 

• Bayes-Verfahren 

3.2 Clustering 

Ziel der Clusteranalyse ist es, eine gegebene Instanzenmenge E (E C A") in verschiedene Teilmen- 
gen (Cluster) zu zerlegen. Die Individuen innerhalb eines Clusters sollen dabei moglichst ahnlich 
sein, wohingegen Individuen verschiedener Cluster moglichst unahnlich sein sollen. 

Neben der Instanzenmenge selbst sind fur das Clustering eine Distanz-/Abstandsfunktion und eine 
Qualitatsfunktion notig (vgl. Abschnitt 7). 

Das Ziel des Clusterings lasst sich mit Hilfe einer Abstandsfunktion dist so formulieren, dass der 
Abstand der Individuen innerhalb eines Clusters kleiner als der Abstand zu den Individuen anderer 
Cluster sein soil. 


V Cj . Cj . (i j) £ C . V Xk,xi £ CiiXui £ Cj . dist(xfc, x;) <C dist(x/ c ,x m ) 

Die Qualitatsfunktion beschreibt die Giite des Clusterings. 

quality(C = {Ci C E ,..., C k C E}) ->• K 

Meistens basiert die Qualitatsfunktion auf der Abstandsfunktion dist bzw. auf einem Ahnlichkeits- 
ma£ simil (vgl. Abschnitte 2.5 und 7). 

In Abbildung 9 sind 2 Beispiel-Clusterungen dargestellt. 



Abbildung 9: Schlechtes und gutes Clustering 


Beispiel 3.2 (Clustern). 

• Finden homogener Kundengruppen zur gezielten Angebotsgestaltung 

• OCR: Finden von Buchstabengruppen, die ahnliche Bilder haben, um spezialisierte Klassih- 
katoren zu entwickeln 

Einige Verfahren: 

• k-Means-Algorithmus 

• Selbstorganisierende Neuronale Netze (z.B. Kohonen Map, Growing Neural Gas) 
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3.3 Numerische Vorhersage 

3.3 Numerische Vorhersage 

Ziel der numerischen Vorhersage ist die Approximation einer Funktion aus Beispielen. Dabei sollen 
aus einer Reihe bekannter Instanzenbeschreibungen und Funktionswerte die Werte zukiinftiger, 
bislang unbekannter Instanzenbeschreibungen berechnet werden. 

Von einer Funktion y = f{x) ist lediglich eine Instanzenmenge E bekannt, die aus Instanzenbe¬ 
schreibungen X = {®i,..., x n } sowie zugehorigen Zielwerten Y = {yi,..., y n } besteht. Gesucht ist 
nun eine Funktion y' = h(x), die die Zusammenhange zwischen den Instanzenbeschreibungen und 
Zielwerten moglichst genau widerspiegelt. Der Fehler error (f(x), h(x)) zwischen berechnetem und 
tatsachlichem Wert soil also minimiert werden. 

Beispiel 3.3 (Numerische Vorhersage). 

• Vorhersage von Verkaufszahlen zur Lageroptimierung 

• Vorhersage von Aktienkursen 

• Zeitreihenanalyse 

Einige Verfahren: 

• Lineare Regression 

• Regressionsbaume 

• Neuronale Netze (Feed forward) 

3.4 Assoziationsanalyse 

Mit dem Aufkommen der Barcodetechnik und der imrner grower werdenden Verbreitung von Lesege- 
raten ist es moglich geworden, das Kaufverhalten von Kunden ohne eine unangemessene Steigerung 
des Arbeitsaufwands zu dokumentieren. Grofie Datenmengen fallen an. Diese Daten gilt es zu ana- 
lysieren, uni Antworten auf Fragen wie: „Wie ordne ich meine Waren optimal an?“, „In welche 
Kategorien lasst sich die Kundschaft einordnen?“ oder „Welche Artikel sollten aus dem Sortiment 
genommen werden?“ zu finden. Sinn dieser Warenkorbanalyse ist also die Gewinnsteigerung bzw. 
die Verbesserung der Kundenzufriedenheit. 

Mit der Anwendung in anderen Bereichen entwickelte sich die Warenkorbanalyse schliefilich zur 
Assoziationsanalyse. Diese ist der Versuch, Regional bzw. Datenbereiche in einer Datenbank zu 
identihzieren und zu beschreiben, in denen mit holier Wahrscheinlichkeit mehrere Werte gleichzeitig 
auftreten. 

Der wesentliche Unterschied zur Warenkorbanalyse besteht in der grofien Zahl der Anwendungsge- 
biete. Denkbare Anwendungsmoglichkeiten sind beispielsweise die Risikoabschatzung in der Versi- 
cherungsbranche oder die Analyse der Spielweise einer gegnerischen Fufiballmannschaft. 

Beispiel 3.4 (Assoziationsanalyse). Ein im Internet prasentes Versandhaus analysiert seine Ver- 
kaufsdaten und stellt fest, dass ein Produkt A haufig gemeinsam mit einem anderen Produkt B 
gekauft wird. Das Unternehmen bietet dann in Zukunft automatisch beim Kauf von A auch das 
Produkt B an. 

Mit Hilfe der Assoziationsanalyse konnen Zusammenhange zwischen verschiedenen Waren erkannt 
und das Kundenverhalten analysiert werden. Die Assoziationsanalyse ist ein vorhersagendes Data- 
Mining-Verfahren, d.h. es analysiert die Daten, um Regelmafiigkeiten zu identihzieren und das 
Verhalten neuer Datensatze vorherzusagen. 

Einige Verfahren: 

• A-Priori-Verfahren 


• ART-Netze 
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3.5 Text Mining 

Text Mining beschaftigt sich mit der Analyse von Textdokumenten. Texte sind im Gegensatz zu 
Datenbanken und Web-Seiten unstrukturiert. Haufig ist man an einer Klassifizierung des Dokuments 
interessiert, also z.B. nach Themengebiet und fachlichem Niveau. Ein Ansatz ist, zunachst relevante 
Begriffe aus dem Dokument zu extrahieren, um anhand dieser das Dokument einzuordnen. Auf Text 
Mining wird im Rahmen dieses Skripts nicht niiher eingegangen. 

3.6 Web Mining 

Anwendungen des Data Minings, die das Internet als Datenquelle fur die Mustererkennung her- 
anziehen, werden unter dem Themengebiet des Web Minings zusammengefasst. In Abhangigkeit 
von der inhalts- oder nutzungsorientierten Analyse des World Wide Web (WWW) lassen sich die 
Teilgebiete Web Content Mining und Web Usage Mining voneinander abgrenzen. 

Web Content Mining befasst sich mit der Analyse von den im WWW befindlichen Daten. Dazu 
gehoren textuelle und multimediale Informationen jeglichen Formats und auch die Verbindun- 
gen (Links) zu den Nachbarseiten. 

Web Usage Mining dagegen beschaftigt sich mit dem Verhalten von Internet-Nutzern. Bei die¬ 
ser Auspragungsform des Web Mining werden Data-Mining-Methoden auf die Protokollda- 
teien des Webservers angewandt, um Aufschliisse fiber Verhaltensmuster und Interessen der 
Online-Kunden zu erhalten. Erne Auspragungsform des Web Usage Alining, bei der sich die 
Analyse ausschliefslich auf die Protokolldateien des Web-Servers beschrankt, wird als Web 
Log Mining bezeichnet. Sofern neben den Protokolldateien noch weitere Datenbestande in 
den Mustererkennungsprozess einfiiefsen. wird diese Auspragung als Integrated Web Usage 
Mining bezeichnet. Die Taxonomie des Web Minings ist in Abbildung 10 dargestellt. 



Abbildung 10: Web Mining 

Insbesondere das Web Log Mining hat an Bedeutung gewonnen, da sich das Internet in den letz- 
ten Jahren zu einem bedeutenden Medium fur die Abwicklung geschaftlicher Prozesse entwickelt 
hat. Da die Webprasenz eines Unternehmens innner haufiger den ersten Kontakt zwischen einem 
potentiellen Kunden und dem Unternehmen herstellt, hat diese natiirlich mittlerweile einen hohen 
Stellenwert. Gerade in einem so stark umkampften Markt wie dem Internet ist es von immenser 
Bedeutung, sich Wettbewerbsvorteile gegeniiber der Konkurrenz zu verschaffen, denn der Kunde ist 
nur einen Mausklick von dem nachsten Angebot entfernt. Unternehmen, die fiber eigene Webprasen- 
zen verffigen, sammeln automatisch Nutzungsdaten in sogenannten Logdateien fiber die virtuellen 
Besuche ihrer (potentiellen) Kunden. Die hierbei anfallenden Daten werden aber haufig nur unzu- 
reichend verwertet. Da sich die Nutzungsdaten aus wirtschaftlichem Hintergrund auf das Verhalten 
von Marktpartnern beziehen, sind sie zur Unterstiitzung wirtschaftlicher Entscheidungen von grofier 











3.6 Web Mining 
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Bedeutung. Das Management muss wissen, wer die Website besucht und - was noch wichtiger ist 
- wer etwas kauft bzw. warum nichts gekauft wird. Websites werden heute als Investition gesehen 
und miissen ihre Notwendigkeit, wie jede andere Marketinginvestition, begriinden. Je mehr man 
dariiber weifi, wie viele Kunden die Website besuchen, wer sie sind und fur welche Bereiche sie 
sich interessieren, desto mehr wird die Website davon profitieren. Werden diese Informationen zur 
Optimierung der Website benutzt und mit anderen gangigen Marketingaktionen verbunden, kann 
der gesamte WWW-Auftritt stark verbessert werden. 

Web Log Mining beschaftigt sich mit der Untersuchung von Data-Mining-Verfahren zur Auswertung 
von internetbasierten Nutzungsdaten (Logdateien) und deren Nutzen zur Unterstutzung unterneh- 
merischer Entscheidungen im Kontext der Optimierung von Internetangeboten. 
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4 Wissensreprasentation 

Quality is inversely proportional to the time left for 
completion of the project. 

Wright’s first law of quality. 

Nachdem wir uns damit beschaftigt haben, fur welche Aufgaben Data Mining eingesetzt werden 
kann (Kapitel 3), befassen wir uns - bevor wir auf die Verfahren (Kapitel 5) eingehen - nun mit der 
Frage, wie man Resultate unserer DM-Analysen darstellen kann. Dies ist nicht trivial, da man z.B. 
einen Entscheidungsbaum durchaus unterschiedlich darstellen kann, natiiiiich zunachst als Baum, 
aber auch durch Regeln oder eine Tabelle. Im folgenden betrachten wir also unterschiedliche Formen 
der Wissensdarstellung im Kontext Data Mining. 

4.1 Entscheidungstabellen 

Eine Entscheidungstabelle ist die tabellarische Auflistung moglicher Bedingungen (Eingaben) und 
des gewiinschten Ergebnisses (Ausgabe), das jeder Bedingung entspricht. 

Beispiel 4.1 (Entscheidungstabelle). In Tabelle 2 ist eine Entscheidungstabelle fur das Golfspiel 
gegeben. Wann wird gespielt? 


outlook 

temperaturehumidity 

windy 

play 

sunny 

hot 

high 

false 

no 

sunny 

hot 

high 

true 

no 

sunny 

mild 

high 

false 

no 

sunny 

mild 

normal 

true 

yes 

sunny 

cool 

normal 

false 

yes 

overcast 

hot 

high 

false 

yes 

overcast 

hot 

normal 

false 

yes 

overcast 

mild 

high 

true 

yes 

overcast 

cool 

normal 

true 

yes 

rainy 

mild 

high 

false 

yes 

rainy 

mild 

normal 

false 

yes 

rainy 

mild 

high 

true 

no 

rainy 

cool 

normal 

false 

yes 

rainy 

cool 

normal 

true 

no 


Tabelle 2: Entscheidungstabelle fur Golf-Spiel 


4.2 Entscheidungsbaume 

Ein Entscheidungsbaum ist eine Reprasentationsform, bei der die Ergebnisse einer Bedingung ver- 
zweigt dargestellt werden. Diese Verzweigungen konnen wiederum andere Verzweigungen generie- 
ren. Entscheidungsbaume sind sehr gut zum Visualisieren, damit zum Verstehen und Begriinden 
von Entscheidungen geeignet, da sie den Weg zur Entscheidung in graphisch aufbereiteter Form 
reprasentieren. 

Beispiel 4.2 (Golfspiel). In Abbildung 11 auf der nachsten Seite ist ein moglicher Entscheidungs¬ 
baum fur das Golf-Beispiel angegeben. 

WEKA liefert mit dem J48-Algorithmus den in Abb. 12 auf der nachsten Seite dargestellten Ent¬ 
scheidungsbaum. 

4.3 Klassifikationsregeln 

Die Einteilung in Klassen wird mittels Regeln dargestellt. 
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outlook 



sunn y/ overcast 


rainy 



humidity 



high 


normal 


yes 


no 


yes 



windy 



false 


true 


yes 


no 


Abbildung 11: Entscheidungsbaum Golf-Spiel 



= sunny= overcast = rainy 



yes (4,0) 



high = normal 


no (3,0) 


yes (2,0) 


= TRUE = FALSE 


no (2.0) 


yes (3.0) 


Abbildung 12: WEKA-Entscheidungsbaum Golf-Spiel 


Beispiel 4.3 (Golfspiel). 


IF outlook = sunny AND humidity = high 
IF outlook = rainy AND windy = true 
IF outlook = overcast 
IF humidity = normal 
IF none of the above 


THEN 

play 

THEN 

play 

THEN 

play 

THEN 

play 

THEN 

play 


no 

no 

yes 

yes 

yes 


4.4 Assoziationsregeln 

Im Gegensatz zu den Klassifikationsregeln, die nur auf das Zielattribut ausgelegt sind, interessieren 
bei Assoziationsregeln auch Zusammenhange zwischen beliebigen Attributen. 

Warenkorbanalyse: In einem Supermarkt (vgl. Beispiel 3.4 auf Seite 21) werden an der Kasse die 
Warenkorbe aller Kunden erfasst. Mit Hilfe von Assoziationsregeln lassen sich nun Zusammenhange 
zwischen den einzelnen Artikeln darstellen. Ein Ergebnis konnten folgende Erkenntnisse sein: 

• Wenn Waschpulver gekauft wird, wird i. allg. auch Weichsptiler gekauft: 

IF waschpulver THEN weichsptiler 

• Wenn Fisch gekauft wird, wird i. allg. kein Fleisch gekauft: 

IF fisch THEN fleisch 

• Wenn Sekt gekauft wird, werden i. allg. auch Pralinen gekauft: 

IF sekt THEN pralinen 

Beispiel 4.4 (Golfspiel). Man kann Assoziationsregeln auch folgendermafien darstellen. 


IF temperature = cool 
IF humidity = normal AND windy = false 
IF outlook = sunny AND play = no 
IF windy = false AND play = no 


THEN humidity = normal 
THEN play = yes 
THEN humidity = high 
THEN outlook = sunny 
AND humidity = high 
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4.4 Assoziationsregeln 


4.4.1 Einfache Assoziationsregeln 


Eine Assoziationsregel ist eine Implication, gepaart mit Angaben iiber die Haufigkeit ihres Auftre- 
tens in einer Menge von Transaktionen. Gegeben seien eine Menge von Transaktionen T und eine 
Menge von sogenannten Items /. Die Items konnen als die Artikel verstanden werden, die in einem 
Supermarkt verkauft werden. Eine Transaction ist in diesern Fall ein Einkauf bzw. ein Warenkorb. 
Das Aussehen von Assoziationsregeln lasst sich folgendermafien beschreiben: Eine Assoziationsregel 
besteht aus einer Pramisse A und einer Konsequenz B. A und B sind Konjunktionen (also durch 
Und verkniipft) von Items, die ihrerseits die Waren des Supermarkts darstellen. Die Regel hat dann 
die Form A —>■ B. mit z.B. A = {I\, l 2 ,h} und B = {h}. Die Schnittmenge von A und B muss 
leer sein. 

Die Regel 


{bier, chips} —> {tvzeitung} 


ist also als abkiirzende Schreibweise fur die Regel 


IF bier=yes AND ... THEN ... 


zu verstehen. 

Aufierdem werden zwei Interessantheitsmafse (vgl. Abschnitt 7.1 auf Seite 73) benotigt, welche die 
Qualitat einer Assoziationsregel bestimmen. 

Der Support eines Items oder Itemsets ist die Anzahl der Transaktionen, die das Item bzw. das 
Itemset als Teilmenge enthalten, irn Verhaltnis zur Gesamtzahl der Transaktionen der Menge T. 
Der Support einer Assoziationsregel ist gleich dem Support der Vereinigung von Pramisse und 
Konsequenz der Regel (dUB). 


supp(A — > B) = P(A U B ) 

Man zahlt, wieviele Datensatze ALLE Attribute aus AU B enthalten und teilt dies durch die 
Gesamtanzahl der Datensatze in der DB. 

Die Konfidenz einer Assoziationsregel berechnet sich aus dem Verhaltnis zwischen den Transak¬ 
tionen, die sowohl Pramisse als auch Konsequenz enthalten, und den Transaktionen, die nur die 
Pramisse enthalten. Die Konfidenz misst, wie oft die Regel wirklich zutrifft in Relation zur Anzahl, 
wie oft sie hatte zutreffen mussen. 


conf(A —)• B) = 


supp(A —)• B) 


supp(A) 

Beispiel 4.5 (Support und Konfidenz). Wie hoch sind Support und Konfidenz der Regel 

IF temperature = cool THEN humidity = normal 
in Beispiel 4.1 auf Seite 25? 


supp (temperature = cool —> humidity = normal) = P(A U B) = — 


supp (temperature = cool ) = P{A) = — 

confM - B) = sup P ( Tt B) = ¥ = 1 


supp (A) 


_ 4 _ 

14 


Die Regel ist also absolut sicher, sie hat einen Support von |. 
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4.4.2 Schwellwerte 

Um die wertvollen von den weniger wertvollen Assoziationsregeln zu trennen, miissen Schwellwerte 
fiir Konfidenz und Support eingefiihrt werden, die nicht unterschritten werden diirfen. Diese seien 
als con fmin und supp min bezeichnet. Die Festlegung dieser Werte erfolgt zumeist durch den Benutzer 
des Data-Mining-Tools. 

Meist gilt: Je grofier Support und Konfidenz, umso wertvoller ist die Assoziationsregel. Hier kann 
es zu Ausnahmen kornmen, so haben beispielsweise Regeln wie {Person lebt} —> {Person atmet} 
trivialerweise eine hohe Konfidenz und sind dennoch uninteressant. 

Beispiel 4.6 (Assoziationsregeln). In Abb. 13 sind die Assoziationsregeln, die WEKA mit dem 
apriori-Algorithmus (vgl. Abschnitt 5.3.1 auf Seite 46) findet, dargestellt. 

Minimum support: 0.15 Minimum metric <confidence>: 0.9 

Best rules found: 

1. humidity=normal windy=FALSE 4 ==> play=yes 4 conf:1 

2. temp=cool 4 ==> humidity=normal 4 conf:1 

3. outlook=overcast 4 ==> play=yes 4 conf:1 

4. temp=cool play=yes 3 ==> humidity=normal 3 conf:1 

5. outlook=rainy windy=FALSE 3 ==> play=yes 3 conf:1 

6. outlook=rainy play=yes 3 ==> windy=FALSE 3 conf:1 

7. outlook=sunny humidity=high 3 ==> play=no 3 conf:1 

8. outlook=sunny play=no 3 ==> humidity=high 3 conf:1 

9. temp=cool windy=FALSE 2 ==> humidity=normal play=yes 2 conf:1 

10. temp=cool humidity=normal windy=FALSE 2 ==> play=yes 2 conf:1 

Abbildung 13: Assoziationsregeln fiir Golf-Spiel 


4.4.3 Arten von Assoziationsregeln 

Neben den urspriinglichen, klassischen Assoziationsregeln - auch boolesche Assoziationsregeln ge- 
nannt - wurden eine Reihe von Variationen entwickelt, um bestimmte Nachteile zu beseitigen. 
Folgende Variationen werden in diesern Abschnitt vorgestellt: 

• hierarchische Assoziationsregeln (Taxonomien) 

• temporale Assoziationsregeln (Sequenzanalyse) 

• quantitative Assoziationsregeln 

• unscharfe Assoziationsregeln 

Wieso betrachtet man weitere Formen von Assoziationsregeln? Zum einen geht es darum, die Aussa- 
gekraft von Regeln zu erhohen. Aufserdem hat man bei numerischen Attributen haufig das Problem, 
dass ein Wert knapp aufierhalb eines Intervalls liegt und damit nicht als zu diesern Intervall zugehorig 
betrachtet wird, was mathematisch zwar korrekt ist, praktisch aber haufig unsinnig ist. 

Hierarchische Assoziationsregeln Bei den hierarchischen Assoziationsregeln - auch Taxonomi¬ 
en genannt - werden mehrere Begriffe (Items) zu einern Oberbegriff zusammengefasst (z.B. einzelne 
Produkte zu Warengruppen/Kategorien). Es ist auch moglich, dass ein Begriff mehrere Oberbegriffe 
hat. Zum Beispiel kann ein Begriff zusatzlich zum Oberbegriff Sonderangebot gehoren. 

Der Vorteil der hierarchischen Assoziationsregeln ist, dass sich durch das Zusammenfassen von 
Begriffen der Support der Regel erhoht und dadurch rnehr Regeln gefunden werden. Aufierdem ist 
es nun moglich, Regeln auf einer abstrakteren Stufe zu finden. 

Beispiel 4.7 (Hierarchische Assoziationsregeln). Um hierarchische Assoziationsregeln aufzustellen, 
werden einzelne Items zu einer Gruppe zusammengefasst. Folgende Beispiele sind denkbar. 


4.4 Assoziationsregeln 
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Items 

{Messer, Gabel, Loffel} 
{Brot, Milch, Kase} 
{Doppelpass, Flanke} 


Oberbegriff 

Besteck 

Lebensmittel 

Angriff 


Statt viele Regeln mit den Items der linken Tabellenseite zu erzeugen, geniigen nun einige wenige. 

Quantitative Assoziationsregeln Einfache und hierarchische Assoziationsregeln geben keine 
Auskunft iiber die Quantitat eines Begriffs. Es wird nur angegeben, ob der Begriff in der Transaktion 
auftritt oder nicht. Quantitative Assoziationsregeln beriicksichtigen auch die Quantitat des Begriffs 
und ermoglichen dadurch eine genauere Unterscheidung. Sinnvoll ist dies bei numerischen Begriffen 
wie zum Beispiel Anzahl, Alter, Preis usw. Man geht dabei folgendermaften vor: 

1. Einteilung des Wertebereichs in Intervalle (Klassifizierung). 

2. Fiir jedes Intervall wird ein neuer Begriff geschaffen. 

3. Die originalen Begriffe werden durch die neuen ersetzt. 

Beispiel 4.8 (Quantitative Assoziationsregeln). Gegeben sei folgende Datenbasis: 

Alter Anzahl Kinder Einkommen 


23 

0 

2000 

28 

1 

2500 

34 

0 

4500 

45 

2 

3500 

65 

5 

4000 


Der Begriff Alter wird in 3 Intervalle unterteilt: unter 30, 30 bis 50, iiber 50. Der Begriff 
Anzahl Kinder wird in 2 Intervalle eingeteilt: kein Oder 1 Kind, mehr als 1 Kind. Das Einkom¬ 
men wird ebenfalls in 2 Intervalle eingeteilt: bis 3000, mehr als 3000 (vgl. Binarkodierung in 
Abschnitt 6.2.4 auf Seite 66). Anhand dieser Daten wird eine neue Datenbasis erstellt. 


Alterl Alter2 Alter3 

I 0 0 

1 0 0 

0 1 0 

0 1 0 

0 0 1 


Kinder 1 
1 
1 
1 
0 
0 


Kinder2 

0 

0 

0 

1 

1 


Einkommen 1 

I 

1 

0 

0 

0 


Einkommen2 

0 

0 

1 

1 

1 


Eine quantitative Regel konnte dann so aussehen: 


(Alter E [0,29 \, Einkommen E [0,2999]) —> (Kinder = 0/1) 

Unscharfe Assoziationsregeln Die unscharfen Assoziationsregeln - auch fuzzy association rules 
genannt - sind eine Weiterentwicldung der quantitativen Assoziationsregeln. Die Intervallgrenzen 
sind nun nicht starr, sondern fliefiend. Zum Beispiel wird der Begriff Alter in jung, mittel und 
alt eingeteilt. Bis 25 gehort man zu jung, ab 35 zu mittel und dazwischen gehort man zu beiden 
Gruppen. 

Durch die fliefienden Intervallgrenzen ist der Support einer Regel grofier als bei quantitativen As¬ 
soziationsregeln, da nun auch Begriffe die bei den quantitaven Assoziationsregeln knapp aufierhalb 
der Intervallgrenzen lagen, beriicksichtigt werden. 

Unscharfe Regeln eignen sich besonders fiir Datenanalysen, bei denen mit Ausreifsern oder Mess- 
fehlern gearbeitet wird, wie zum Beispiel in der Physik. 

Beispiel 4.9 (Unscharfe Assoziationsregeln). Ein Call-Center plant, Daten der eingehenden An- 
rufe zu speichern. Zu diesen Daten zahlt unter anderem auch der Zeitpunkt, an dem der Anruf 
angenommen wurde. Angenommen, die Leitung des Centers mochte die Anrufe nach Tageszeiten 
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sortieren. Das Vorgehen nach dem quantitativen Schema wiirde so ablaufen, dass die 24 Stunden 
des Tages in Intervalle aufgeteilt wiirden, beispielsweise in Nacht, Morgen, Nachmittag und Abend. 
Das Intervall Nacht endet uni 6 Uhr, ihm folgt das Intervall Morgen. Der Morgen endet um 12 Uhr 
und geht in den Nachmittag iiber usw. 

Das Charakteristikum dieser Vorgehensweise ist, dass es zu Uberschneidungen kommen kann. So 
konnte es eine Gruppe von Anrufern geben, die morgens zwischen 6 und 12 anrufen, um z.B. 
Brotchen zu bestellen. Eine Regel der Form Zeit = Morgen —> Bestellung = Brotchen ware die 
Folge. Der Nachteil dieser Vorgehensweise liegt darin, dass es Kunden geben kann, die kurz vor 6 
oder kurz nach 12 anrufen, um Brotchen zu bestellen. Da der Zeitpunkt dieser Anrufe nicht mehr in 
dem vorgegebenen Intervall liegt, gehoren diese Anrufe auch nicht mehr zur Kundengruppe Morgen, 
auch wenn sie sonst alle Eigenschaften dieser Gruppe erfiillen. Die Folge ist, dass der Support obiger 
Regel sinkt. 

Mit unscharfen Regeln kann diesern Verhalten entgegengewirkt werden. Anstelle von festen Interval- 
len wird mit Zugehorigkeitsgraden gearbeitet. Ein Anruf um 11 Uhr kann sowohl der Gruppe Morgen 
als auch der Gruppe Nachmittag zugeordnet werden. Die Zuordnung geschieht mit Methoden aus 
der Fuzzy-Logik. Der wesentliche Unterschied zwischen Fuzzy und quantitativen Assoziationsregeln 
liegt in der Regelgenerierung, im weiteren Verhalten sind sich beide Formen recht ahnlich. 
Temporale Assoziationsregeln Bei den temporalen Assoziationsregeln bzw. bei der Sequenzana- 
lyse wird neben der Information, dass ein Begriff in einer Transaktion auftrat, auch der Zeitpunkt 
bzw. die Reihenfolge erfasst. Damit ist die Sequenzanalyse im Gegensatz zur normalen Assoziati- 
onsanalyse eine Zeitraumanalyse. 

Ziel der Sequenzanalyse ist es, Sequenzen zu hnden, die einen Mindestsupport aufweisen. Wenn bei¬ 
spielsweise jeden Freitag 6 Fasten Bier gekauft werden und am nachsten Tag die Verkaufszahlen fiir 
Kopfschmerztabletten in die Hohe schnellen, besteht ein temporaler Zusammenhang, der beriicksich- 
tigt werden sollte. In temporalen Datenbanken sind Daten in einern zeitlichen Kontext gespeichert. 
Die Assoziationsregeln konnen als Schnappschusse der sich verandernden Zusammenhange zwischen 
den Daten aufgefasst werden. Dadurch ist es moglich, Veranderungen und Fluktuationen dieser 
Zusammenhange zu betrachten und zu erforschen. 

Ein typisches Einsatzgebiet fiir die Sequenzanalysen sind die Loghle-Analysen, bei denen das Ver¬ 
halten von Besuchern einer Webseite untersucht wird. 

4.5 Instanzenbasierte Darstellung 

Bei der instanzenbasierten Darstellung werden - ahnlich wie beim Auswendiglernen - einfach alle 
Individuen gespeichert, z.B. in einer relationalen Datenbank. 

4.6 Cluster 

Wird eine Grundgesamtheit in Teilmengen zerlegt, deren Individuen zueinander ahnlicher als zu 
den Individuen der anderen Teilmengen sind, bezeichnet man diese Teilmengen als Cluster. 
Darstellen lasst sich ein Cluster 

• als Menge der ihm zugeordneten Individuen, aber auch 

• als Vektor der Mittelwerte der Attribute seiner Individuen (Centroid) oder 

• durch einen typischen Vertreter der Cluster-Elemente (Medoid), 

• iiber Wahrscheinlichkeiten (jedes Individuum kann verschiedenen Clustern mit einer be- 
stimmten Wahrscheinlichkeit angehoren) 

In Abb. 14 auf der nachsten Seite sind fiir einen Beispiel-Cluster sowohl der Centroid als auch der 
Medoid dargestellt. Der Centroid muss nicht in der Datenmenge vorkommen, aber der Medoid. Als 
Medoid kann man beispielsweise den Punkt bzw. Datensatz wiihlen, der am nachsten zum Centroid 
liegt. 

Mit dem k-Means-Algorithmus (vgl. Abschnitt 5.6.1 auf Seite 51) erreicht WEKA fiir das Wetter- 
Beispiel die in Abb. 15 auf der nachsten Seite dargestellten Cluster. 


4.6 Cluster 
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/ Medoid 


x Centroid 



Abbildung 14: Centroid und Medoid 


k-Means 


Number of iterations: 4 

Within cluster sum of squared errors: 26.0 
Cluster centroids: 

Cluster 0 Mean/Mode: sunny mild high FALSE yes 

Std Devs: N/A N/A N/A N/A N/A 

Cluster 1 Mean/Mode: overcast cool normal TRUE yes 
Std Devs: N/A N/A N/A N/A N/A 

Clustered Instances 

0 10 ( 71%) 1 4 ( 29%) 


Abbildung 15: Cluster fur das Wetter-Beispiel 
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5 Methoden und Verfahren 

A carelessly planned project takes three times longer 
to complete than expected; a carefully planned project 
takes only twice as long. 

Golub’s Second Law of Computerdom 

Wir gehen davon aus, dass wir unsere Daten bereits gesammelt und vorverarbeitet haben. D.h. wir 
haben (i. allg.) eine einzige Datentabelle mit unseren kompletten Daten vorliegen. Dies ist in der 
Praxis natiirlich nicht der Fall; vielmehr miissen wir uns unsere Daten i. allg. erst zusammensuchen 
und diese vorverarbeiten (Kapitel 6). Wir konzentrieren uns jetzt zunachst auf die Verfahren. 

Es gibt viele Data-Mining-Methoden. In diesem Kapitel werden einige dieser Methoden beschrieben 
sowie Verfahren zur praktischen Umsetzung mit dazu verwendbaren Werkzeugen vorgestellt. Weder 
die Menge der Methoden noch die der Verfahren und Werkzeuge konnen vollstandig sein, da das 
Gebiet des Data Mining extrem dynamisch ist und sich imrner noch sturmisch weiterentwickelt. 

In Tabelle 3 ist eine Ubersicht iiber die behandelten Verfahren(sklassen) sowie die Problemklassen, 
fiir die sie einsetzbar sind, dargestellt. 
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Instanzenbasiertes Lernen 

X 






k Nearest Neighbour 

X 


(x) 

(x) 



Entscheidungsbaumlernen 

X 



(x) 



a priori 


X 



X 

X 

Lineare Regression 




X 



Uberwachte Neuronale Netze 

X 

X 


X 



Selbstorganisierende Neuronale Netze 

(X) 


X 




k-means 



X 




Naive Bayes 

X 




X 



Tabelle 3: Data-Mining-Verfahren und Anwendungsklassen 


5.1 Instanzenbasiertes Lernen 

Beim instanzenbasierten Lernen handelt es sich um das einfachste Verfahren zur Klassifikation. Alle 
Individuen der Trainingsmenge werden gespeichert. Zur Klassifikation eines unbekannten Individu- 
ums wird das ahnlichste Individuum der bekannten Menge gesucht und dessen Klasse vorhergesagt. 

5.1.1 k Nearest Neighbour 

Das k-nearest-neighbour-Verfahren (kNN) ist ein instanzenbasiertes Verfahren. Es setzt voraus, dass 
die zu erlernenden Objekte durch eine Menge von reellwertigen Attributen beschrieben sind. Der 
Lernschritt des Verfahrens ist trivial: Es werden lediglich Beispielobjekte gespeichert. Unbekannte 
Objekte werden ldassifiziert, indem die Ahnlichkeit (vgl. Abschnitt 2.5) der Attributwerte des unbe¬ 
kannten Objekts zu denen der bereits gespeicherten Objekte berechnet wird. Die k ahnlichsten unter 
den gegebenen Objekten werden dann zur Vorhersage der Klasse des neuen Objekts herangezogen. 
Allerdings kann es dabei zu Problemen kommen. In Abb. 16 auf der nachsten Seite ist zweidimen- 
sional dargestellt, dass sich fiir den zu klassifizierenden Vektor je nach Wahl von k unterschiedliche 
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Klassifikationen ergeben konnen. Die Objekte, die mit © gekennzeichnet sind, gehoren zur einen 
Klasse, die mit einem • gekennzeichneten Objekte zur anderen Klasse. Fur das Objekt o ist keine 
Klassenzugehorigkeit bekannt. Anhand der Klassenzugehorigkeit der anderen Objekte soil das neue 
Objekt einer dieser beiden Klassen zugeordnet werden. 


y 



-X 

Abbildung 16: Beispiel k Nearest Neighbour 

Bei k = 1 (veranschaulicht mittels der durchgezogenen Kreisbahn) gilt ldasse(o) = •, bei k = 5 
(gestrichelter Kreis) hingegen ergibt sich klasse(o) = ©. 

Fur das Resultat kann also die (un)geschickte Wahl von k mafigeblich sein. Man rechnet deshalb 
in der Praxis haufig mehrere Varianten mit unterschiedlichen k und vergleicht die vorhergesagten 
Klassen. 

Die Komplexitat des Verfahrens wird weniger durch den Lernschritt, als vielmehr durch den Klassifi- 
kationsschritt bestimmt. Weil aber keine komplette und kompakte Beschreibung der zu erlernenden 
Funktion generiert werden muss, kann sich die unter Umstanden teure Berechnung der Ahnlichkeit 
auf einen als relevant ermittelten Suchbereich beschranken. 

Diese zentralen Merkmale machen das kNN-Lernen zu einem engen Verwandten z.B. des fallbasierten 
Schliefiens und der lokal gewichteten Regression. 

5.1.2 Der kNN-Algorithmus 

Der Lernschritt beim kNN-Lernen ist sehr einfach. Er lautet: 

Sei f(x) die zu erlernende Funktion. Fiir jedes Trainingsbeispiel ( x , f(x )) speichere das Beispiel in 
einer Liste Trainingsbeispiele. 

Fiir verschiedene Arten von Funktionen gibt es nun unterschiedliche Klassifikationsschritte. 
Diskrete Funktion Sei V := {ui, V 2 , v m } eine endliche Menge (dies sind die Werte, die das 
Zielattribut annehmen kann) und / : $t n —> V die zu erlernende Funktion. Sei weiter der Vektor y 
das zu klassifizierende Beispiel. Dann hat der kNN-Algorithmus die folgende Form: 

Fiir alle Xi in der Menge Training sbeispiele berechne die Ahnlichkeit zu y. Wahle diejenigen k 
Beispiele x\, X 2 , ■ ■ ■, aus, die zu y am ahnlichsten sind. Dann gib zuriick: 

k 

klasse(y) := max N d(v,f(x p )) mit S(a,b) := 
p =i 

Die Funktion klasse berechnet also denjenigen Wert, der unter den Klassifikationswerten der k 
Traingsbeispiele am haufigsten vorkommt. D.h. y wird der Klasse zugeordnet, die unter den k ahn¬ 
lichsten Beispielen am, meisten vertreten ist. Diese wird dann fiir den neuen Datensatz vorhergesagt. 
Beachten Sie, dass das k nichts iiber den Abstand der Trainingsbeispiele vom neuen Datensatz aus- 
sagt. Es geht allein um die k ahnlichsten Objekte, egal wie weit sie vom neuen Datensatz entfernt 
sind. 

Beispiel 5.1 (kNN). Folgende Daten sind gegeben: 


J1, falls a=b 
\0, sonst 
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Nr 

Alter 

verheiratet 

Eigenheim 

Akademiker 

Einkommen 

1 

alt 

ja 

ja 

ja 

hoch 

2 

alt 

ja 

nein 

nein 

gering 

3 

mittel 

nein 

nein 

nein 

gering 

4 

mittel 

ja 

ja 

ja 

hoch 

5 

jung 

nein 

nein 

nein 

gering 

6 

jung 

ja 

nein 

nein 

mittel 

7 

jung 

ja 

ja 

ja 

mittel 

8 

alt 

nein 

ja 

nein 

hoch 


Sei das vorherzusagende Attribut die Gehaltsgruppe (hoch, mittel gering). Wir wollen das Einkom- 
men fiir einen jungen, verheirateten Akademiker ohne Eigenheim vorhersagen. Zunachst werden die 
zum gegebenen Datensatz k ahnlichsten Datensatze bestimmt. Sei k=2. Es werden die 2 ahnlichsten 
Datensatze (ohne das Einkommen-Attribut) bestimmt. Dazu benutzen wir die Hamming-Distanz. 


Nr 

Alter 

verheiratet 

Eigenheim 

Akademiker 

Abstand 

neu 

jung 

ja 

nein 

ja 


1 

alt 

ja 

ja 

ja 

2 

2 

alt 

.ja 

nein 

nein 

2 

3 

mittel 

nein 

nein 

nein 

3 

4 

mittel 

ja 

ja 

ja 

2 

5 

jung 

nein 

nein 

nein 

2 

6 

jung 

ja 

nein 

nein 

1 

7 

jung 

ja 

ja 

ja 

1 

8 

alt 

nein 

ja 

nein 

4 


In diesen 2 Datensatzen (6 und 7) zahlt man nun, welche Gehaltsgruppe am haufigsten vertreten 
ist: Gehaltsgruppe mittel. 

Reellwertige Funktion Fiir reellwertige Funktionen / : —> 5k unterscheidet sich der kNN- 

Algorithmus vom diskreten Fall nur darin, dass nun der Mittelwert der ausgewahlten k Beispiele 
zuriickgegeben wird: 

Fiir alle Xi in der Menge Trainingsbeispiele berechne die Ahnlichkeit zu y. Wahle diejenigen k 
Beispiele xi,X 2 , ■ ■ ■, Xk aus, die zu y am ahnlichsten sind. Dann gib zuriick: 

E f( x P ) 

CU, A . P =1 


Den in Abb. 16 auf der vorherigen Seite dargestellten Unwagbarkeiten - den moglichen Schwan- 
kungen bei unterschiedlichen k - wirkt die im nachsten Abschnitt beschriebene Verfeinerung des 
kNN-Algorithmus entgegen. 

5.1.3 Ein verfeinerter Algorithmus 

Eine offensichtliche Schwache des elementaren kNN-Algorithmus ist der Umstand, dass alle der k 
ausgewahlten Beispiele zu gleichen Teilen zum Ergebnis des Klassifikationsschritts beitragen. Sollte 
jedoch die grundsatzliche Annahme, dass ein geringer Abstand eine hohe Ahnlichkeit impliziert, 
ihre Berechtigung haben, dann erschiene es sinnvoll, jedern einzelnen Ergebnisvektor genrafi seinem 
Abstand zum Anfragevektor ein Gewicht zuzuordnen. Eine derartige Vorgehensweise ermoglicht 
auch, alle Trainingsbeispiele zur Ermittlung des Ergebnisses heranzuziehen, weil solche mit hohem 
Abstand kaum noch zum Resultat beitragen; im reellwertigen Fall spricht man dann von der soge- 
nannten Shepard’s method. Allerdings impliziert diese Methode einen hoheren Rechenaufwand im 
Klassifikationsschritt. 
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Diskrete Funktionen Als Gewicht wird das Inverse des Quadrats der Distanz zwischen 
Trainings- und Anfragevektor gewahlt. Dann lautet im diskreten Fall der durch Distanzgewichtung 
verfeinerte Klassifrkationsschritt wie folgt: 

Sei wieder V := {v\,V 2 ,...,v m } die Menge aller Werte, die das Zielattribut annehmen kann. Fiir 
alle Xi in der Menge Trainingsbeispiele berechne die Ahnlichkeit zu y. Wahle diejenigen k Beispiele 
x\,X 2 , ■ ■ ■, Xk aus, die zu y am ahnlichsten sind. 




f f(xi ) falls y = Xi fiir ein i 


klasse(y) := < 

I k 

1 max J2 w p x fi x p )) sonst 

L v£V p= i 

mit S(a,b ) := j 

1 , falls a=b 

0, sonst 

und w p ■= dist il,x P ) 2 - 


Reellwertige Funktionen Im reellwertigen Fall lautet der verfeinerte Algorithmus: 

Fiir alle Xi in der Menge Trainingsbeispiele berechne die Ahnlichkeit zu y. Wahle diejenigen k 
Beispiele x\, X 2 , ■ ■ ■, Xk aus, die zu y am ahnlichsten sind. 

falls y = Xi fiir ein i 

sonst 

mit W P : = distil, Xp ) 2 • 

5.1.4 Anmerkungen 

• Fiir k 1 arbeitet der kNN-Algorithmus i. allg. auch bei verrauschten Trainingsdaten sehr 
gut. 

• Im Gegensatz beispielsweise zum Entscheidungsbaum werden alle Attribute in die Berechnung 
einbezogen. Dies bedeutet, dass der Algorithmus stark an Zuverlassigkeit verliert, wenn einige 
der Attribute fiir die Bestimmung der Ahnlichkeit irrelevant sind. Dieses Problem lasst sich 
dadurch abmildern, dass man den Attributen Gewichte zuweist. 

• Die Auswahl der Trainingsdaten verdient einige Beachtung. So ist z.B. von Bedeutung, dass 
die Trainingsvektoren den Losungsraum moglichst gleichmafiig aufspannen. 

Aufgabe 5.1 (kNN). Klassifizieren Sie folgende Datensatze auf Basis der Tabelle 4 auf der nachsten 
Seite (vgl. Aufgabe 5.3 auf Seite 45) mittels kNN. Testen Sie das Verfahren mit unterschiedlichen 
k. Welche Distanzen schlagen Sie vor? 


Alt. 

Fr/Sa 

Hung. 

Gaste 

Reserv. 

Typ 

Zeit 

Warten 

ja 

nein 

ja 

einige 

nein 

Franz. 

30-60 


ja 

ja 

ja 

voll 

ja 

Chin. 

10-30 


nein 

nein 

nein 

keine 

nein 

Burger 

0-10 



Die Tabelle enthalt 12 Datensatze mit diesen Attributen: 

• Alternative: Gibt es in der Nahe ein geeignetes anderes Restaurant? (ja/nein) 

• Fr/Sa: Ist Freitag oder Samstag? (ja/nein) 

• Hungrig: Bin ich hungrig? (ja/nein) 

• Gaste: Wieviele Leute sind im Restaurant? (keine/einige/voll) 

• Reservierung: Habe ich reserviert? (ja/nein) 

• Typ: Um welche Art von Restaurant handelt es sich? (Franz./Chin./Ital./Burger) 

• Wartezeit: Welche Wartezeit wird vom Restaurant geschatzt? (0-10/10-30/30-60/>60) 

• Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? (ja/nein) 




f(xi ) 


E WpXfiXp) 

p= 1_ 

k 

E w P 

P= 1 
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Alt. 

Fr/Sa 

Hung. 

Gaste 

Reserv. 

Typ 

Zeit 

Warten 

ja 

nein 

ja 

einige 

ja 

Franz. 

0-10 

ja 

ja 

nein 

ja 

voll 

nein 

Chin. 

30-60 

nein 

nein 

nein 

nein 

einige 

nein 

Burger 

0-10 

ja 

ja 

ja 

ja 

voll 

nein 

Chin. 

10-30 

ja 

ja 

ja 

nein 

voll 

ja 

Franz. 

>60 

nein 

nein 

nein 

ja 

einige 

ja 

Ital. 

0-10 

ja 

nein 

nein 

nein 

keine 

nein 

Burger 

0-10 

nein 

nein 

nein 

ja 

einige 

ja 

Chin. 

0-10 

ja 

nein 

ja 

nein 

voll 

nein 

Burger 

>60 

nein 

ja 

ja 

ja 

voll 

ja 

Ital. 

10-30 

nein 

nein 

nein 

nein 

keine 

nein 

Chin. 

0-10 

nein 

ja 

ja 

ja 

voll 

nein 

Burger 

30-60 

ja 


Tabelle 4: Restaurant-Beispiel 


5.2 Entscheidungsbaumlernen 

5.2.1 Erzeugen eines Entscheidungsbaums 

In Abb. 11 auf Seite 26 haben wir bereits einen Entscheidungsbaum gesehen. Wir schauen uns 
nun an, wie man einen Entscheidungsbaum generieren kann. Ausgehend von der Attributmenge 
A und der Beispielmenge E entwickelt man einen Entscheidungsbaum, indem man zunachst ein 
Attribut a G A als Wurzel auswahlt. Sei w a die Menge aller Werte, die das Attribut a annehmen 
kann. Fur jede Auspragung u: G u a dieses Attributs wird die Menge E u C E gebildet, fur die gilt 
Ve G E u : u a (e) = ui. Des weiteren wird eine mit dieser Auspragung markierte Kante an die Wurzel 
gelegt. 1st E u = 0, beendet man die Kante mit NIL. Entfallen alle Beispiele aus E w auf die gleiche 
Klasse, wird die Kante mit einem mit der Klasse markierten Blatt abgeschlossen. In jedem anderen 
Fall wird ein weiterer Entscheidungsbaum generiert, dessen Wurzel als Knoten an das Ende der 
Kante gehangt wird. Dieser neue Teilbaum wird nun analog - ausgehend von der Attributmenge 
A' = A \ {a} und der Beispielmenge E u - erzeugt. 

Wir betrachten zur Erlauterung die Daten des Golfspiels (Tabelle 5). 


Tag 

outlook 

temperature 

humidity 

windy 

play 

1 

sunny 

hot 

high 

false 

no 

2 

sunny 

hot 

high 

true 

no 

3 

overcast 

hot 

high 

false 

yes 

4 

rainy 

mild 

high 

false 

yes 

5 

rainy 

cool 

normal 

false 

yes 

6 

rainy 

cool 

normal 

true 

no 

7 

overcast 

cool 

normal 

true 

yes 

8 

sunny 

mild 

high 

false 

no 

9 

sunny 

cool 

normal 

false 

yes 

10 

rainy 

mild 

normal 

false 

yes 

11 

sunny 

mild 

normal 

true 

yes 

12 

overcast 

mild 

high 

true 

yes 

13 

overcast 

hot 

normal 

false 

yes 

14 

rainy 

mild 

high 

true 

no 


Tabelle 5: Daten Golfspiel 

Am bereits vorgestellten Entscheidungsbaum (Abb. 17 auf der nachsten Seite) soli das Vorgehen 
veranschaulicht werden. Als obersten Knoten hat man outlook gewahlt. Dieses Attribut hat 3 Aus- 
pragungen. Folglich werden 3 Kanten erzeugt [sunny, overcast, rainy). Nun werden fur jede Auspra¬ 
gung die Datensatze aus der ursprunglichen Datenbank selektiert, die als Attributwert fur outlook 
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genau diesen Wert haben. Fur overcast konnen wir nun sofort yes eintragen, da in alien Datensat- 
zen, in denen der Attributwert overcast ist, gespielt wird. Fur die beiden anderen Falle muss das 
Verfahren mit den jeweiligen Teil-Datenbanken fortgesetzt werden. 


Wurzelattribut (a) 

Auspragungen 
von outlook 


E sunny = Datensatze 
1,2,8,9,11 



outlook 



sunny 


overcast \ ram y 



humidity 



yes 


3,7,12,13 


high 


normal 



windy 


E = alle Daten 


E ramy = Datensatze 


4,5,6,10,14 



false 


true 


no 


yes 


yes 


no 


Abbildung 17: Entscheidungsbaum Golf-Spiel 


5.2.2 Auswahl eines Attributs 

In den Pfaden eines Entscheidungsbaums konnen die Attribute in unterschiedlicher Reihenfolge auf- 
treten. Daher gibt es fur die Losung eines Problems nicht den einzig richtigen Entscheidungsbaum, 
sondern eine Menge moglicher Entscheidungsbaume. 

Welchen Baum sollten wir anstreben? Naturlich mochten wir einen solchen Baum haben, der mog- 
lichst kompakt ist, der uns also nach wenigen Fragen eine Klasse liefert. 

Unter Betrachtung des Aufwands ist es jedoch unmoglich, alle diese Baume zu generieren und zu 
vergleichen. Um dieses Problem zu losen gibt es drei grundsatzliche Moglichkeiten. 

manuell Das auszuwiihlende Attribut wird vom Benutzer manuell vorgegeben. Dies kann nur bei 
ldeinen Attributmengen eine sinnvolle Losung sein. 

zufallig Eine naheliegende Variante zur Attributwahl ist der Zufallsgenerator. Dabei konnen 
aber auch Baume mit sehr langen Pfaden entstehen, die uniibersichtlich und somit schlecht 
nachvollziehbar sind. 

berechnet Bei dieser Form der Attributauswahl wird automatisch nach dem optimalen (wir 
nehrnen an, wir hiitten schon ein Optimalitatskriterium) Attribut fiir die Wurzel eines Baums 
gesucht. 

Beispiel 5.2 (Automatische Attributwahl). Man sucht ein geeignetes Attribut naturlich unter der 
Mafigabe, dass dieses lokal die Klassifikationsleistung am meisten verbessern wiirde. Dazu wird 
probeweise jedes Attribut a als Wurzel angenommen. Anhand der Auspragungen uj a des Attributs 
teilt man die Beispielmenge. Fiir jede dieser Teilmengen wird nun die in der Teilmenge hauhgste 
Klasse vorhergesagt. Aufgrund dieses naiven Verfahrens ermittelt man die Fehlerrate error(cu a ). 
Die Fehlerrate error a des Attributs wird als Summe der mit der relativen Haufigkeit gewichteten 
Fehlerraten seiner Auspragungen berechnet. Fiir die Wurzel des Entscheidungsbaums wahlt man 
nun dasjenige Attribut mit der geringsten Fehlerrate. 

falsch 
err or (u a ) = —— 


error a 


£< 


^ai 

14 


* error (u; ai )) 


min. 
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Bei metrischen Attributen, insbesondere bei grofien Wertebereichen, ist es haufig nicht nur unan- 

gebracht, sondern gar unmoglich, fiir jede Auspragung eine einzelne Kante anzulegen (z.B. reelle 

Zahlen). Zur Losung dieses Problems gibt es zwei Moglichkeiten: 

Gruppierung Es werden die Auspragungen in Intervallen zusammengefasst. Fiir jedes der Inter¬ 
vals wird nun eine eigene Kante angelegt (vgl. Abschnitt Quantitative Assoziationsregeln auf 
Seite 29). 

Schwellwerte Es werden genau zwei Kanten erzeugt, die sich dadurch unterscheiden, dass die At¬ 
tribute einen bestimmten Zahlenwert unter- bzw. iiberschreiten. Es ist bei diesern Vorgehen 
moglich, innerhalb eines Pfads des Baums ein Attribut mehrfach mit verschiedenen Schwell- 
werten zu untersuchen. 

5.2.4 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums 

Seien die in Tabelle 6 dargestellten Daten zur Bewertung des Kreditrisikos gegeben. 


Nr. 

Zielattr. 

Risiko 

fruhere Kredit- 
wiirdigkeit 

Verschul- 

dung 

Sicher- 

heiten 

Ein- 

kommen 

1 

hoch 

schlecht 

hoch 

keine 

0 bis 15 

2 

hoch 

unbekannt 

hoch 

keine 

15 bis 35 

3 

mittel 

unbekannt 

niedrig 

keine 

15 bis 35 

4 

hoch 

unbekannt 

niedrig 

keine 

0 bis 15 

5 

niedrig 

unbekannt 

niedrig 

keine 

iiber 35 

6 

niedrig 

unbekannt 

niedrig 

angemessen 

fiber 35 

7 

hoch 

schlecht 

niedrig 

keine 

0 bis 15 

8 

mittel 

schlecht 

niedrig 

angemessen 

liber 35 

9 

niedrig 

gut 

niedrig 

keine 

fiber 35 

10 

niedrig 

gut 

hoch 

angemessen 

fiber 35 

11 

hoch 

gut 

hoch 

keine 

0 bis 15 

12 

mittel 

gut 

hoch 

keine 

15 bis 35 

13 

niedrig 

gut 

hoch 

keine 

liber 35 

14 

hoch 

schlecht 

hoch 

keine 

15 bis 35 


Tabelle 6: Kreditrisiko 

Wie generiert man daraus einen Entscheidungsbaum, der uns bei der Entscheidung hilft, ob aus der 
Sicht der Bank das Risiko einer Kreditvergabe hoch ist oder nicht? Dieser Entscheidungsbaum soil 
uns insbesondere auch bei Fallen, die in der obigen Tabelle nicht vorkommen, helfen. In Abb. 18 auf 
der nachsten Seite ist ein Entscheidungsbaum dargestellt, der alle Beispiele der Tabelle 6 erfasst. 
Fast immer hangt die Grofie des Entscheidungsbaums davon ab, in welcher Reihenfolge die Eigen- 
schaften (Attribute) fiir die Fallunterscheidung benutzt werden. In Abb. 19 auf der nachsten Seite 
ist ein wesentlich kleinerer Entscheidungsbaum dargestellt. 

Welcher Baum ist fiir die Klassihkation der unbekannten Datensatze optimal? Der ID3-Algorithmus 
unterstellt, dass dies der einfachste Baum ist. D.h. wir mochten einen moglichst kompakten Baum 
haben. Der Algorithmus ist in Abb. 20 auf der nachsten Seite dargestellt. 

Wie wahlt der ID3-Algorithmus ein geeignetes Attribut aus? Das hier vorgestellte Verfahren wurde 
1979 von Quinlan entwickelt und benutzt den Entropiebegriff von Shannon. Unter Entropie wird die 
Unreinheit, die Unordnung verstanden. Je holier die Entropie einer Datentabelle ist, desto grofier 
ist deren Unordnung, desto mehr Fragen muss man also noch stellen. Grundlage ist die Informati- 
onstheorie. Gewahlt wird das Attribut, welches den grofiten Informationsgewinn liefert. 

Der Informationsgehalt eines Attributs B wird gemessen als: 

k 

T ( B ) = ^2~p(h) X log 2 (p(bi)) 

1=1 
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Kreditwiirdigkeit ? 

schlecht 



Sicherheit ? 


Verschuldung ? 


keine, 


1 angemessen 


hoch 


\yiiedrig 



hohes Risiko ^ Sicherheit ? "RisHm* 

hohes Risiko mittleres Risiko / \ 

keine / \angemessen 
angemessen 1 \ 

Einkommen ? niedriges Risiko 

Einkommen ? niedriges Risiko 

0-15/ 

15-35 


0 ly ■'"'i \ iiber 35 

mittleres Risiko 


hohes Risiko 


\\Uber 35 

15-35 niedriges Risiko 


hohes Risiko 


niedriges Risiko 


mittleres Risiko 


Abbildung 18: Entscheidungsbaum 


0-15, 


Einkommen ? 

/ 15-35 



hohes Risiko Kreditwiirdigkeit ? Kreditwiirdigkeit ? 


unbekannt / sc hlecht 8 ut 


unbekannt 


niedriges Risiko 


Verschuldung ? 
hochj '\niedrig 

hohes Risiko mittleres Risiko 


hohes Risiko f 

mittleres Risiko schlecht 


gut 

niedriges Risiko 


mittleres Risiko 


Abbildung 19: Entscheidungsbaum 2 


FUNCTION induce_tree(Beispielmenge Ex, Attribute Attr) 

IF alle Eintraege aus Ex gehoeren zur gleichen Klasse 
THEN RETURN Blattknoten mit Beschriftung dieser Klasse 
ELSE 

Waehle ein Attribut A aus Attr; 

Setze A als Wurzel fuer den aktuellen Baum; 

Loesche A aus Attr; 

FOREACH Wert AV von A 

Erstelle Kante im Baum mit Kantenbeschriftung AV; 
Seien Ex_AV alle Elemente von Beispielmenge Ex, 
die als Wert fuer A gerade AV haben; 
Ergebnis der Kante AV := induce_tree(Ex_AV,Attr); 
END FOREACH; 

END IF; 

END. 


Abbildung 20: Algorithmus Entscheidungsbaum 
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Dabei stellen die bi die moglichen Werte des Attributs B dar (k Werte). p ist die Wahrscheinlichkeit 
(besser: relative Haufigkeit) fiir das Eintreffen von b t . 

Wie grofi ist der Informationsgehalt der Tabelle 6 auf Seite 39? D.h. wie grofi ist der Informations- 
gehalt der Tabelle beziiglich des Zielattributs Risiko? Risiko hat 3 Auspragungen mit folgenden 
relativen Haufigkeiten: 

• p(Risiko hoch) = ^ 

• p(Risiko mittel) = ^ 

• p(Risiko niedrig) = ^ 

Folglich ist 


/(Tabelle) = /(Risiko) = x log 2 (^) - ^ x log 2 (^) - ^ x log 2 (^) = 1,531 


Tipp: Wenn Sie einen Taschenrechner haben, auf dem 
wie folgt behelfen: 


log 2 (z) 


iogioO) 

!ogio( 2 ) 


kein log 2 verfiigbar ist, dann kann man sich 
ln(x) 

= M2) 


Nun wahlt man das Attribut aus, das den maximalen Informationsgewinn erzielt. D.h. man 
berechnet die Differenz aus /(Tabelle) und der Information, die sich unter Beachtung der nachsten 
Ebene ergibt (Abb. 21). 


I(Tabelle) -► Alle Datensatze 


Kreditwiirdigkeit ? 



Abbildung 21: Informationsgewinn 

Sei eine Beispielmenge E (die komplette DB) gegeben. Wahlt man nun z.B. das Attribut B mit n 
Werten aus, so wird E in n Teilmengen (Teildatenbanken) zerlegt: {E±,..., E n }. Nachdem B als 
Wurzel des Baums festgesetzt wurde, ist die zur Fertigstellung des Baums voraussichtlich erforder- 
liche Informationsmenge: 

71 I TP I 

G(B) = Z'j^KE j) 

G (gain) ist die (entsprechend der relativen Haufigkeit) gewichtete Summe der Einzelinformationen. 
Der Gewinn an Information wird dann berechnet als: 

gewinn(H) = 1(E) — G(B) 

Es gilt, gewinn zu maximieren. Dazu geht man alle Attribute durch und wahlt jenes aus, das den 

maximalen Gewinn liefert. 

Wahlen wir zunachst Kreditwiirdigkeit als Attribut. Kreditwiirdigkeit hat 3 Auspragungen: un- 
bekannt, schlecht, gut. Fiir jeden dieser Werte zahlen wir, wie oft welches Risiko vorkommt: 


Wert 

holies Risiko 

mittleres Risiko 

niedriges Risiko 

unbekannt 

2 

1 

2 

schlecht 

3 

1 

0 

gut 

1 

1 

3 
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Es ergibt sich: 


2 2 1 12 2 

/(Kreditwurdigkeit unbekannt) = — x log 2 (-)-x log 2 (-)-x log 2 (-) = 1,52 

5 5 5 "55 5 

3 3 1 1 

/(Kreditwiirdigkeit_ schlecht) = —- x log 2 (-) — - x log 2 (-) = 0,81 

1 11 13 3 

/(Kreditwiirdigkeit_gut) = -- x log 2 (-) - - X log 2 (-) - - X log 2 (-) = 1,37 

Also ist 

n \ E \ - . ~ 

G (Kreditwurdigkeit) = — ^-I(Ej) = — x 1, 52 + — x 0, 8113 + — X 1, 37095 = 1, 265 

In Abb. 22 ist das Vorgehen dargestellt. 


I(Tabelle) = 1,531 


unbekannt 
5x 


Gesamte Tabelle 
Kreditwurdigkeit ? 


t 


schlecht 
4x 


Teiltabelle 1 Teiltabelle 2 ' 

Kreditwurdigkeit = unbekannt ... = schlech/ 


hoch = 2x j _ 

mittel = lx . „ 

niedrig = 2x Ejz 


hoch = 3x ' j _ 
mittel = lx ' „ „ 
niedrig = 0^ 


(14) hoch = 6x 
i mittel = 3x 
niedrig = 5x 

gut 5x 



Tciltairelle 3 
§ ut 

i ' 

1 , hoch = lx j _ 

'/ mittel = lx . _ 
niedrig = 3x 1 A 1 


G(Kreditwiirdigkeit) = 5/14 * 1,52 + 4/14 * 0,81 + 5/14 * 1,37 


Abbildung 22: Gain-Berechnung 

Diese Berechnung fiihren wir fiir alle 4 Attribute durch und erhalten: 

• gewinn(kreditwuerdigkeit) = 1, 531 — 1, 265 = 0, 266 

• gewinn(einkommen) = 1, 531 — 0, 564 = 0, 967 

• gewinn(verschuldung) = 1,531 — 1,468 = 0,063 

• gewinn(sicherheiten) = 1, 531 — 1, 325 = 0, 206 

Man wahlt nun einkommen als obersten Knoten, da der Gewinn dort am grofiten ist, und setzt 
das Verfahren fur jeden Teilbaum rekursiv fort. 

Wir tun dies exemplarisch fiir den Zweig: einkommen=15-35. Wichtig ist jetzt, dass wir nicht 
mehr iiber die gesamte Tabelle nachdenken miissen, sondern nur noch fiber die Datensatze, wo 
einkommen=15-35 gilt. 

Wir konnen also in unserer urspriinglichen Tabelle 6 auf Seite 39 etliche Datensatze loschen: Tabel¬ 
le 7. Wir konnten sogar die komplette Spalte fiir Einkommen herausstreichen. 


Nr. 

Zielattr. 

Risiko 

friihere Kredit- 
wiirdigkeit 

Verschul- 

dung 

Sicher- 

heiten 

Ein¬ 

kommen 

2 

hoch 

unbekannt 

hoch 

keine 

15 bis 35 

3 

mittel 

unbekannt 

niedrig 

keine 

15 bis 35 

12 

mittel 

gut 

hoch 

keine 

15 bis 35 

14 

hoch 

schlecht 

hoch 

keine 

15 bis 35 


Tabelle 7: Kreditrisiko 

Welches Attribut wahlen wir als nachstes (nur fiir den Zweig einkommen=15-35)1 Dazu berechnen 
wir zunachst wieder den Informationsgehalt der Tabelle 7. 
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• p(Risiko hoch) = | 

• p(Risiko mittel) = | 

• p(Risiko niedrig) = j 

Folglich ist 

I(Tabelle2) = /(Risiko) = ~ x log 2 (^) - ^ x log 2 (^) - ^ x log 2 (^) = 1 

Nun wahlt man wieder das Attribut aus, das den maximalen Informationsgewinn erzielt. D.h. 
man berechnet die Differenz aus /(Tabelle2) und der Information, die sich unter Beachtung der 
nachsten Ebene ergibt. 

Wahlen wir zunachst Kreditwiirdigkeit als Attribut. Kreditwiirdigkeit hat 3 Auspragungen: un- 
bekannt, schlecht, gut. Fiir jeden dieser Werte zahlen wir, wie oft welches Risiko vorkommt: 


Wert 

holies Risiko 

mittleres Risiko 

niedriges Risiko 

unbekannt 

1 

1 

0 

schlecht 

1 

0 

0 

gut 

0 

1 

0 


Es ergibt sich: 

/(Kreditwiirdigkeit_unbekannt) = x log 2 (^) - ^ x log 2 (^) - ^ X log 2 (^) = 1 

7(Kreditwiirdigkeit_schlecht) = — ^ x log 2 (j) — ^ X jj x l°g 2 (^) = 0 
/(Kreditwiirdigkeit_gut) = ~ x log 2 (j) -|x log^) - ^ x lo g' 2 (j) = 0 

Also ist 

n ^ | jtj .1 2 1 1 

G(kreditwuerdigkeit) = ^ —(y -I{Ej) = -xl + -x0 + -x0 = 0,5 

3 = 1 

Diese Berechnung fiihren wir auch fiir die anderen beiden Attribute durch und erhalten: 

• gewinn(kreditwuerdigkeit) = 1 — 0, 5 = 0, 5 

• gewinn(verschuldung) = 1 — 0,6887 = 0,3113 

• gewinn(sicherheiten) = 1 — 1 = 0 

Man wahlt folglich kreditwuerdigkeit als nachsten Knoten, da der Gewinn dort am grofiten ist. 
Der Gini-Index Alternativ kann man anstelle des Informationsgehalts und des Gains auch den 
Gini-Index verwenden. Der Gini-Index geht auf den italienischen Statistiker Corrado Gini (1884- 
1965) zuriick. 

Der Gini-Index ist das Aquivalent zum Informationsgehalt einer Tabelle beziiglich eines Zielattri- 
buts B ; er wird gemessen als: 

k 

gmi(B) = l-J2p(.bi) 2 

i =1 

Die bi stellen die moglichen Werte des Attributs B dar. p ist die Wahrscheinlichkeit (besser: relative 
Haufigkeit) fiir das Eintreffen von 6j. 

Analog zum Gain definiert man dann 


GINI(B) = x; 

3 =1 


\E\ 


gini (Ej) 
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5.2.5 C4.5-Algorithmus 

Ein Nachteil des ID3-Algorithmic ist, dass er nicht mit numerischen Attributen umgehen kann. 
Dies kann der Nachfolger des ID3, der C4.5-Algorithmus. Und zwar werden numerische Attribute 
in Intervalle unterteilt und somit zu ordinalen Attributen. Hat ein Attribut A n Auspragungen 
Ai,..., A n , so werden fiir jedes i die Intervalle [a|a < Aj] und [a\a > Aj\ gebildet. Diese 2 Intervalle 
werden als neue Auspragungen des Attributs A betrachtet. Es wird die Intervallbildung gewahlt, 
die den grofiten Gewinn liefert. 


Bemerkung 5.1 (ISplit). Der ID3-Algorithmus hat einen weiteren Nachteil: Die Sortierung der 
Attribute (wie oben dargestellt) favorisiert Attribute mit vielen verschiedenen Auspragungen (At¬ 
tribute mit vielen unterschiedlichen Werten). Deshalb normalisiert C4.5 den Informationsgewinn. 
Sei: ^ 

I Split (B) = - XJ ^ x log 2 (^) 

Der Gewinn an Information wird dann normalisiert: 


gewinn’ (B) 


gewinn(B) 

ISplit(B) 


Beispiel 5.3 (ISplit). Betrachten wir einen kleinen Ausschnitt aus einer Kino-Besuch-Datenbank. 
Wir konzentrieren uns dabei auf nur ein Attribut, den Kartenpreis und das Zielattribut Kino besucht. 
Normalerweise miisste man verschiedene Attribute mit unterschiedlicher Werteanzahl - also z.B. 
Attribut 1 mit 3 Auspragungen und Attribut 2 mit 8 Auspragungen - betrachten. Um aber den 
Effekt zu veranschaulichen, betrachten wir nur ein Attribut mit zwei unterschiedlichen ordinalen 
Kodierungen. 


Preis 

8 

5 

5 

9 

8 

8 

4 

5 

8 

8 

9 

8 

Kino besucht 

j 

n 

j 

j 

n 

j 

j 

n 

n 

j 

j 

11 


Wir betrachten 2 mogliche Umwandlungen des Preisattributs in Ordinalattribute. Variante 1: 

• 4 und 5 werden zu billig: 4 Auspragungen. 

• 8 und 9 werden zu teuer : 8 Auspragungen. 

Variante 2: 

• 4 wird zu billig: 1 Auspragung. 

• 5 wird zu moderat: 3 Auspragungen. 

• 8 wird zu teuer: 6 Auspragungen. 

• 9 wird zu sehr teuer: 2 Auspragungen. 

Fiir Variante 1 ergibt sich ein Gain von 0,97, fiir Variante 2 nur 0,73. Damit ist klar, dass der 
Gewinn bei Variante 2 grofier sein wird. 

Dies ist ein typischer Effekt, Attribute mit vielen Auspragungen werden bevorzugt. Deshalb teilt 
man den Informationsgewinn durch den ISplit, um dies auszugleichen. Man erhiilt fiir Variante 1 
einen ISplit von 0,92, fiir Variante 2 1,73. Der groftere ISplit reduziert den Gewinn fiir Variante 2 
starker als den Gewinn bei Variante 1, womit der Bevorzugungseffekt ausgeglichen werden soil. 

5.2.6 Probleme 

Man kann beim Entscheidungsbaumlernen auf ein Problem stofien. Es kann uns passieren, dass 
der Entscheidungsbaum die Trainingsdaten auswendig lernt, d.h. er wird dann alle Trainingsdaten 
korrekt klassifizieren. Allerdings hat sich gezeigt, dass ein solcher Entscheidungsbaum manchmal 
auf den Testdaten nicht gut funktioniert, da er ja alle Trainingsdaten nur auswendig gelernt hat. 
Man bezeichnet dies als Overfitting. Man versucht folglich, dies zu verhindern, und zwar durch 
ein Verkiirzen der Biiume. Es gibt 2 Ansatze: 
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• Keine weiteren Unterbaume, wenn eine bestimmte Anzahl von Trainingsdaten unterschritten 
wird. 

• Ersetzen bereits generierter Unterbaume durch ein Blatt. 

Man beachte, dass wir damit den Wunsch aufgeben, dass unser Entscheidungsbaum die Trainings¬ 
daten zu 100% korrekt vorhersagt. Dies kann aber ohnehin passieren, falls wir widerspriichliche 
Daten haben. 

5.2.7 Erganzungen 

Das ID3-Verfahren ist ein Verfahren der Klasse Top down induction of decision trees (TDIDT- 
Verfahren). Es handelt sich um ein Verfahren, welches einen univariaten Baum erzeugt. D.h. 
an jedem Knoten wird exakt ein Attribut abgefragt. Es gibt auch Verfahren, die multivariate 
Entscheidungsbaume generieren. In diesen Baumen konnen in einem Knoten mehrere Attribute 
benutzt werden, z.B. als Linearkombination von Attributen: Gewicht + 2 * Grofie < 70. Damit sind 
die Schnitte im Merkmalsraum zwar linear, aber nicht mehr achsenparallel. Man kann in den Knoten 
auch nichtlineare Ausdriicke abfragen: Gewicht / (Grofie*Grofie) < 25. Nun sind die Schnitte im 
Merkmalsraum beliebig kurvig. Multivariate Baume haben den Vorteil, dass sie rneist genauer und 
kleiner sind. Allerdings ist ein Nachteil, dass sie schwieriger zu bauen und auch schwerer lesbar sind. 

5.2.8 Aufgaben 

Aufgabe 5.2 (Golfspiel). Bestimmen Sie aus den in Tabelle 8 gegebenen Daten einen Entschei¬ 
dungsbaum fair das Attribut ‘Play?’, welches angibt, ob unter den gegebenen Witterungsbedingun- 
gen Golf gespielt wird. Wahlen Sie bei gleicher Giite zweier Attribute das in der Tabelle weiter links 
stehende. Wie gehen Sie mit den numerischen Werten um? 


Outlook 

Temp (°F) 

Humidity (%) 

Windy? 

Play? 

sunny 

85 

85 

false 

no 

sunny 

80 

90 

true 

no 

overcast 

83 

78 

false 

yes 

rain 

70 

96 

false 

yes 

rain 

68 

80 

false 

yes 

rain 

65 

70 

true 

no 

overcast 

64 

65 

true 

yes 

sunny 

72 

95 

false 

no 

sunny 

69 

70 

false 

yes 

rain 

75 

80 

false 

yes 

sunny 

75 

70 

true 

yes 

overcast 

72 

90 

true 

yes 

overcast 

81 

75 

false 

yes 

rain 

71 

80 

true 

no 


Tabelle 8: Daten Golfspiel 


Aufgabe 5.3 (Restaurant). Die Tabelle 9 auf der nachsten Seite (vgl. Aufgabe 5.1 auf Seite 36) 
enthalt 12 Datensatze mit diesen Attributen: 

• Alternative: Gibt es in der Nahe ein anderes Restaurant? (ja/nein) 

• Fr/Sa: Ist Freitag oder Samstag? (ja/nein) 

• Hungrig: Bin ich hungrig? (ja/nein) 

• Gaste: Wieviele Leute sind im Restaurant? (keine/einige/voll) 

• Reservierung: Habe ich reserviert? (ja/nein) 
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• Typ: Um welche Art von Restaurant handelt es sich? (Franz./Chin./Ital./Burger) 

• Wartezeit: Welche voraussichtliche Wartezeit wircl vom Restaurant geschatzt? (0-10/10-30/30- 
60 / >60) 

• Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? (ja/nein) 


Generieren Sie einen Entscheidungsbaum und klassifizieren Sie nachfolgende Datensatze. 


Alt. 

Fr/Sa 

Hung. 

Gaste 

Reserv. 

Typ 

Zeit 

Warten 

ja 

nein 

ja 

einige 

nein 

Franz. 

30-60 


ja 

ja 

ja 

voll 

ja 

Chin. 

10-30 


nein 

nein 

nein 

keine 

nein 

Burger 

0-10 



Alt. 

Fr/Sa 

Hung. 

Gaste 

Reserv. 

Typ 

Zeit 

Warten 

ja 

nein 

ja 

einige 

ja 

Franz. 

0-10 

ja 

ja 

nein 

ja 

voll 

nein 

Chin. 

30-60 

nein 

nein 

nein 

nein 

einige 

nein 

Burger 

0-10 

ja 

ja 

ja 

ja 

voll 

nein 

Chin. 

10-30 

ja 

ja 

ja 

nein 

voll 

ja 

Franz. 

>60 

nein 

nein 

nein 

ja 

einige 

ja 

Ital. 

0-10 

ja 

nein 

nein 

nein 

keine 

nein 

Burger 

0-10 

nein 

nein 

nein 

ja 

einige 

ja 

Chin. 

0-10 

ja 

nein 

ja 

nein 

voll 

nein 

Burger 

>60 

nein 

ja 

ja 

ja 

voll 

ja 

Ital. 

10-30 

nein 

nein 

nein 

nein 

keine 

nein 

Chin. 

0-10 

nein 

ja 

ja 

ja 

voll 

nein 

Burger 

30-60 

ja 


Tabelle 9: Daten Restaurantbeispiel 


5.3 Verfahren zur Assoziationsanalyse 

Wir wenden uns nun der Aufgabe zu, Assoziationsregeln zu finden. Der Standard-Algorithmus ist 
der A-Priori-Algorithmus. 

5.3.1 Der A-Priori-Algorithmus 

Der A-Priori-Algorithmus ist eines der wichtigsten iterativen Verfahren zur Erzeugung von Assozia¬ 
tionsregeln (vgl. Abschnitt 3.4). Er stellt eine Weiterentwicklung des AIS-Algorithmus dar, welcher 
1993 veroffentlicht wurde. Ziel des A-Priori-Algorithmus ist es, Frequent Itemsets in der Menge 
aller Items zu finden. Mit Item bezeichnet man beliebige Objekte. Frequent Itemsets sind Item- 
rnengen (Mengen von Objekten), deren relative Haufigkeit (ihr Support) den durch den Analysten 
festgelegten minimalen Schwellwert iiberschreiten. 

Sei der minimale Support mit 2% festgelegt. Ein Frequent Itemset ist also (z.B.) bei einer Einkaufs- 
datenbank die Menge {Bier, Brot, Margarine}, falls diese 3er Kombination in mindestens 2% aller 
Einkaufe vorkommt. 

Wieso reicht es, bei der Suche nach Assoziationsregeln sich auf Frequent Itemsets zu beschranken? 
Nun, eine Regel „Wer A und B kauft, kauft auch C“, erfullt den geforderten, minimalen Support 
genau dann, wenn die Menge {A, B, C} ein Frequent Itemset ist. 

Der A-Priori-Algorithmus wird in zwei Schritten vollzogen: 

1. Finden von Frequent Itemsets (Kandidaten) mit ausreichendem Support 

2. Erzeugen von Assoziationsregeln aus alien Frequent Itemsets 

Der A-Priori-Algorithmus beschrankt sich bei der Generierung der Assoziationsregeln auf die Ver- 
wendung gefundener Frequent Itemsets, aus denen neue Itemsets zusammengesetzt werden. Be- 
gonnen wird mit einelementigen Frequent Itemsets. Im nachsten Durchlauf werden aus den 
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gefundenen einelementigen Frequent Itemsets zweielementige, im darauffolgenden Durchlauf aus 
den zweielementigen Itemsets dreielementige Itemsets (usw.) erzeugt. Der Vorgang wird solange 
wiederholt, bis keine Frequent Itemsets mehr gefunden werden. Die gefundenen Frequent Itemsets 
werden auch als Kandidaten bezeichnet. 

Fiir jeden Kandidaten wird der Support berechnet. 1st er kleiner als der Schwellwert, wird der 
Kandidat verworfen. 

Damit die Anzahl der auftretenden Kandidaten weiter reduziert und das zeitliche Laufzeitverhalten 
des Algorithmus verbessert werden kann, wird die sogenannte Monotonieeigenschaft der Itemsets 
verwendet. Sie besagt, dass jede nichtleere Teilmenge eines Frequent Itemsets wiederum ein Frequent 
Itemset sein muss. Der Support kann also nicht kleiner werden, wenn man aus einem Kandidaten 
fiir ein Frequent Itemset ein Item herausnimmt, Und nimmt man umgekehrt zu einem Frequent 
Itemset ein neues Item hinzu, so kann der Support nicht grofser werden. 

Was heifit das? Wir miissen - z.B. beirn Erzeugen von 4er Kandidaten - nicht jede beliebige 4er 
Kombination von Items untersuchen, sondern nur solche 4er Kandidaten, die aus zwei 3er Kandi¬ 
daten entstehen. Haben wir z.B. {A,B,C} und {A,C,D}, so konnte {A,B,C,D} ein Frequent Itemset 
sein. Diesen Kandidaten miissen wir also in Erwagung ziehen. Wissen wir aber, dass z.B. {B,C,D} 
kein 3er Frequent Itemset war, dann kann {A,B,C,D} wegen der Monotonie kein Frequent Itemset 
sein. Wir miissen also nicht in unserer Datenbank zahlen, ob unser Kandidat den Support erfiillt. 
Wir wissen vorher, dass der Support nicht erfiillt wird. Das spart enorm Rechenzeit. 

Generierung der Kandidaten Das Generieren der Kandidaten wird nun nochmal detailliert 
betrachtet. Diese Phase lauft in zwei Teilschritten ab: 

• Join-Phase 

• Pruning-Phase 

In der Join-Phase werden alle (k — l)-langen Itemsets paarweise miteinander verbunden, die sich 
nur in einem Element unterscheiden. Es entstehen also fc-elementige Itemmengen, bei denen sicher- 
gestellt ist, dass mindestens zwei Teilmengen der Lange k — 1 ebenfalls Frequent Itemsets sind. 
Nun wird in der Pruning-Phase fiir alle fc-elementigen Kandidaten gepriift, ob jede (k— l)-elementige 
Teilmenge Frequent Itemset war (Monotonieeigenschaft). 

Bei der Berechnung der Teilmengen ist es sinnvoll, Teilergebnisse wie Support und Konfidenz zwi- 
schenzuspeichern, urn haufige Zugriffe auf die Datenbasis zu vermeiden. 

Beispiel 5.4 (A priori). Wir betrachten Kinobesuche und untersuchen, wer gern mit wem zusam- 
men in’s Kino geht. 


Kinobesuch-ID 

Kinobesucher 

hi 

Anne, Claudia, Ernst 

k2 

Anne, Ernst, Gudrun 

^3 

Anne, Claudia, Ernst, Franz, Gudrun 

k 4 

Anne, Claudia, Horst 

k.5 

Bernd, Claudia, Ernst, Franz, Gudrun 

ke 

Bernd, Claudia, Ernst, Gudrun, Horst 


Wir fordern als minimalen Support: 50%. 

Wir beginnen mit dem Zahlen des Supports fiir die einzelnen Personen. Wir zahlen also die relative 
Haufigkeit der Personen in unserer Kino-Datenbank mit 6 Datensatzen: 


Was sehen wir? Bernd, Franz und Horst erfiillen nicht den minimalen Support. Bei der Bildung 
von 2er Frequent Itemsets konnen wir diese Drei ignorieren, denn jedes 2er FIS mit einem dieser 
Drei hat garantiert einen Support, der maximal 33% betragt. 

Nun bilden wir 2er FIS: 


Anne 

4 

66% 

Bernd 

2 

33% 

Claudia 

5 

83% 


Ernst 

5 

83% 

Franz 

2 

33% 

Gudrun 

4 

66% 

Horst 

2 

33% 
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Anne, Claudia 

50% 

(1) 

Anne, Ernst 

50% 

(2) 

Anne, Gudrun 

33% 

(3) 

Claudia, Ernst 

66% 

(4) 

Claudia, Gudrun 

50% 

(5) 

Ernst, Gudrun 

66% 

(6) 


Einer dieser 6 Kandidaten erfullt den Support nicht. 

Jetzt bilden wir 3er Kandidaten. Dies tun wir aber nicht durch blindes Ausprobieren aller Kombi- 
nationen. Vielmehr bilden wir Kombinationen von 2er Frequent Itemsets, so dass ein 3er Kandidat 
entsteht. 

Welche Kombinationen konnen wir bilden? 


1+4 

Anne, Claudia, Ernst 

?% 

1+5 

Anne, Claudia, Gudrun 

?% 

2+6 

Anne, Ernst, Gudrun 

?% 

4+5 

Claudia, Ernst, Gudrun 

?% 


Miissen wir jetzt wieder ztihlen, um den Support zu bestimmen? NEIN, die beiden mittleren Kandi¬ 
daten konnen wir sofort ausschliefien, da Anne/Gudrun kein 2er FIS ist und somit die Kandidaten 
ACG und AEG aufgrund der Monotonie des Supports den geforderten Support nie und nimmer 
haben konnen. 

Unser Kandidat ACE - hier miissen wir wieder ztihlen - erfullt den Support nicht, CEG erfullt mit 
50% den geforderten Support. 

Vierer-Kandidaten kann es nicht geben, da wir nur ein 3er FIS haben. Wir haben also 5 2er und 1 
3er FIS. 

Erzeugen der Regeln Wir zerlegen jedes Frequent Itemset X in 2 nichtleere Teilmengen A und 
X \ A und betrachten die Regel: 

A^(X\A) 

Man kann z.B. fur X = {a,b,c,d} die Regel (a, b) — > ( c,d ) betrachten. Wir miissen nun natiirlich 
noch priifen, ob die Regel die minimale Konfidenz erfiillt. Dazu miissen wir aber nicht noch einmal 
in der Datenbank ztihlen, da wir uns natiirlich den Support fiir jedes Frequent Itemset gemerkt 
haben. 

Wir miissen aber jede mogliche Zerlegung von X priifen. 

Fiir jedes htiufig auftretende Itemset X miissen also Assoziationsregeln der Form A -> (A' \ A) - 
mit A C X und A % 0 - der Bedingung 

conf(A -+ (X \ A)) = SU PP(^) > contain 
supp(A) 

geniigen. Es ist dabei nicht notig, alle moglichen Assoziationsregeln auf ihre Konfidenz zu priifen. 
Fiir ein Itemset X = {a,b,c,d} und A = {a,b,c} ist der Support von A' = {a,b} grofier (oder 
gleich) als der von A. Durch das Ersetzen von A mit A' kann die Konfidenz nur sinken. Wenn die 
Regel A —> (X \ A) nicht die minimale Konfidenz erreicht, brauchen also alle Regeln der Form 
A' -> (X \ A) mit A' C A erst gar nicht betrachtet zu werden. 

Das Ergebnis enthalt alle Assoziationsregeln, die sowohl den minimalen Support als auch die mini¬ 
male Konfidenz besitzen. 

Wo liegt der Vorteil des Verfahrens? Es handelt sich um einfache Mengenoperationen. Und die 
Komplexitat wird stark gesenkt. Uberlegen Sie, wieviel Regelkandidaten beim naiven Ausprobieren 
aller Kombinationsmoglichkeiten (z.B. bei 1 Mio Verkaufsprodukten) entstiinden. 

Nachteilig ist aber, dass die Komplexitat zwar gesenkt wird, man aber dennoch hauhg bei grofien 
Datenmengen Laufzeitprobleme durch die hauhgen Datenbankabfragen (das fiir die Berechnung des 
Supports notige Zahlen) hat. 
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Beispiel 5.5 (A priori). Wir setzen unser obiges Beispiel fort und betrachten den einzigen 3er 
Kandidaten: {Claudia, Ernst, Gudrun}. Wir greifen uns nur eine Variante heraus, um die Konfidenz 
zu berechnen: 


Claudia, Ernst —> Gudrun 

Den Support hatten wir mit 50% bereits berechnet. Wie hoch ist die Konfidenz? 

conf(A - B) = P(B\A) = snpp( ^f> 

supp(A) 

Also: 

50 

conffClaudia, Ernst —> Gudrun) = — = 0, 75 

66 

Beachten Sie, dass wir die Support-Werte alle schon berechnet haben. Wir miissen also nicht erneut 
auf unsere Datenbank zugreifen. Das reduziert den Aufwand erheblich. 

Beispiel 5.6 (A priori). Seien folgende Frequent Itemsets der Lange 3 bereits berechnet (wir 
iiberspringen also die ersten 3 Schritte der Erzeugung der ler, 2er, 3er Frequent Itemsets): 

{a, b , c}, {a, b, d}, {a, c, d}, {a, c, e}, {b, c, d} 

Daraus lassen sich folgende 4er-Kandidaten erzeugen (Join): 

{a, 6, c, d} (1+2) 

{a,c,d,e} (3+4) 

{a,b,c,e} (1+4) 

Durch Pruning fallen {a, c, d, e} und {a, 6, c, e} weg, da diese Mengen je eine (k-l)-Teilmenge ent- 
halten ({c, d, e} bzw. {b, c, e}), die keine 3-Frequent-Itemsets waren. 

5.3.2 Modifikationen des A-Priori-Algorithmus 

Hierarchische Assoziationsregeln Hauhg hat man Begriffshierarchien, z.B. ist Besteck ein 
Oberbegriff fiir die Items Gabel, Loffel, Messer. Es ist rneist eine gute Idee, Assoziationsregeln 
fur Besteck zu suchen, als dies mit den Unterbegriffen Gabel, Loffel, Messer zu tun. Der Vorteil liegt 
auf der Hand: Besteck hat garantiert einen hoheren Support als die Unterbegriffe. 

Um hierarchische Regeln durch den A-Priori-Algorithmus finden zu lassen, werden die neuen Be- 
griffe einfach als Items aufgenommen. Der Support eines Oberbegriffs ist gleich dem Support des 
Itemsets seiner Komponenten. 

Zur Generierung der Regeln kann auch der Basic-Algorithm,us verwendet werden. Dieser ist ver- 
gleichbar mit dem apriori-Algorithmus. Die Unterschiede sind, dass in den Transaktionen die Be- 
griffe um die Oberbegriffe erweitert werden und dass alle Regeln, bei denen sich im Regelrumpf ein 
Nachkomme eines im Regelkopf enthaltenen Begriffs behndet, geloscht werden. 

Quantitative Assoziationsregeln Der A-Priori-Algorithmus kann analog angewandt werden. 
Die Idee ist, fiir alle Auspragungen eines numerischen Attributs neue Items in die Menge aller Items 
einzufiigen, indern man die numerischen Attribute diskretisiert, z.B. durch Intervalle. 

Erzeugung von temporalen Assoziationsregeln Das Generieren von Assoziationsregeln fiber 
zeitliche Ablaufe (Sequenzen) erfolgt in 5 Phasen: 

1. Sortierphase: Wiihrend der Sortierphase werden die Transaktionen den einzelnen Kunden zu- 
geordnet und in die chronologische Reihenfolge gebracht. Dadurch entstehen die sogenannten 
Kundensequenzen. 

Bei der Erstellung der Sequenzen ist es moglich, Zeitrahmen zu beachten. Das heifit, dass bei 
sehr grofien Zeitabstanden die Transaktionen nicht als eine Sequenz gewertet werden, sondern 
mehrere Sequenzen gebildet werden. Bei sehr kleinen Zeitabstanden werden Transaktionen 
zusammengefasst. Wenn zum Beispiel ein Kunde innerhalb von 10 Minuten zweimal einkauft, 
werden die 2 Transaktionen als eine gewertet, da der Kunde wahrscheinlich nur etwas vergessen 
hat und nochmal zuriickkehrte. 
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2. Generierungsphase: Hier werden die haufigen Itemmengen gesucht. Der Support bestimmt sich 
durch den Anteil der Kunden, die den Begriff in irgendeiner ihrer TVansaktionen enthalten. 
Der Support wird nur einmal pro Kunde gezahlt. 

3. Transformationsphase: Die Sequenzen werden durch die in ihnen enthaltenen haufigen Item¬ 
mengen ersetzt. 

4. Sequenzphase: Mit Hilfe der haufigen Itemmengen werden die gewiinschten Sequenzen ermit- 
telt. Der Ablauf ist wie beim apriori-Algorithmus. 

5. Maximalphase: Aus der Menge der generierten Itemmengen werden die maximalen Sequenzen 
ermittelt. 

Aufgabe 5.4 (Frequent Itemsets). 

Seien diese Einkaufe gegeben: ^ .. „. , , 

Erganzen Sie zunachst fur die gegebenen Asso- 


Finden Sie dann alle Frequent Itemsets mit einern minimalen Support von 0,4. 

5.4 Lineare Regression 

Eine Regressionsfunktion beschreibt den Trend bzw. den durchschnittlichen Zusammenhang zwi- 
schen metrischen Attributen. 

Gegeben sind dabei die Instanzenbeschreibung X und der davon abhiingige Zielwert Y anhand 
einer Beispielmenge E = X x Y. Der Zusammenhang zwischen diesen lasst sich nun mit Hilfe 
der Regressionsfunktion y = f(x) beschreiben. Ziel ist dabei, den quadratischen Fehler zwischen 
tatsachlichem und berechnetem Zielwert zu minimieren. 

error = yi — jji) 2 —» min 

Seien diese x/y-Werte gegeben: (2,3), (3,7), (4,6), (5,10). Mittels linearer Regression erhalt man: 


ziationsregem folgende Tabelle: 


Regel 

Support 

Konhdenz 

Saft —> Cola 
Cola —> Saft 
Cola —> Bier 
Bier —> Cola 




ID 

gekaufte Artikel 

ti 

Brot, Saft, Cola, Bier 

t2 

Saft, Cola, Wein 

t3 

Brot, Saft, Wasser 

t 4 

Cola, Bier, Saft 

f 5 

Brot, Saft, Cola, Bier, Wein 

t6 

Wasser 



■ y 


Regression 


Abbildung 23: Beispiel Regression 

Aufgabe 5.5 (Ausfuhranderung). Berechnen Sie aus den nachfolgend gegebenen Daten die durch- 
schnittliche jahrliche Anderung der Ausfuhr der BRD fiir die Periode 1980/81. Folgende Entwicklung 
der Ausfuhr der BRD (jeweils gegeniiber dem Vorjahr) wurde beobachtet: 
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Periode 19.. 

73/74 

74/75 

75/76 

76/77 

77/78 

78/79 

79/80 

Ausfuhranderung 

+29 % 

-4 % 

+16 % 

+7 % 

+4 % 

+10 % 

+11 % 


5.5 Uberwachte und selbstorganisierende uniiberwachte neuronale Netze 

Neuronale Netze werden im Data Mining sehr haufig eingesetzt. Fur tiefergehende Informationen 
sei hier auf die Vorlesungsreihe „Neuronale Netze" sowie die einschlagige Literatur (z.B. [LC12]) 
verwiesen. 

5.6 Verfahren zur Clusterbildung 

Wir befassen uns nun mit Verfahren, die Objekte zu geeigneten Mengen (Clustern) zusammenfas- 
sen (vgl. Abschnitte 3.2 auf Seite 20, 4.6 auf Seite 30). 

5.6.1 Partitionierendes Clustering 

Man wahlt bei diesen Verfahren eine (beliebige) Anfangspartitionierung von k Clustern. Man kann 
diese beispielsweise durch den Centroid, vgl. Abschnitt 4.6 auf Seite 30, reprasentieren. Aus dieser 
Anfangspartitionierung werden nun die Objekte schrittweise so zwischen den Clustern geordnet, 
dass die Giite der Gruppierung sich immer weiter verbessert. Dazu wird in jedem Rechendurchlauf 
fur jeden Cluster der Centroid berechnet. Anschliefiend werden alle Objekte demjenigen Cluster zu- 
geordnet, dessen Centroid sie am nachsten sind. Das Verfahren endet, wenn kein Objekt nrehr einem 
anderen Cluster zugeordnet wird, d.h. die Giite der Partitionierung sich nicht weiter verbessert. 
Partitionierende Clusterverfahren teilen die Eingabedaten in disjunkte Cluster ein, so dass 
gilt: 


• Jeder Cluster besteht aus nrindestens einem Objekt. 

• Jedes Objekt ist hochstens in einem Cluster enthalten. 

Der Algorithmus sieht so aus: 

1. Erzeuge (zufallig) k Anfangscluster C/. Alle Objekte x aus den Eingabedaten werden (zufallig) 
einem der Cluster zugeordnet. 

2. Bestimme die Mittelpunkte x\, + 2 , ..., x]e der Cluster. 

3. Fur alle x aus den Eingabedaten: Weise x demjenigen Cluster C/ zu, von dessen Mittelpunkt 
xf es am wenigsten entfernt ist. 

4. Gehe zu 2, falls mindestens ein x einem anderen Cluster zugewiesen wurde. 

Dazu werden zwei Verfahren (k-Means und k-Medoid) vorgestellt. Beide gehoren zur Klasse der 
Mittelpunkt-Verfahren. Jedes Individuum gehort dabei immer nur zu einer Klasse. Erganzend sei 
darauf hingewiesen, dass es Verfahren gibt, die wahrscheinlichkeitsbasiert arbeiten. Jedes Individu¬ 
um kann dabei verschiedenen Clustern zugeordnet sein, jeweils mit einer gewissen Wahrscheinlich- 
keit. 

k-Means Der k-Means-Algorithmus ist ein einfaches und populares Verfahren zur Clusteranalyse. 
Dabei wird die Anzahl der gesuchten Cluster vorgegeben, deren Zentren zunachst zufallig festgelegt 
und iterativ adaptiert werden. Die Cluster werden durch den Centroid (Schwerpunkt) reprasentiert. 
In Abbildung 24 auf der nachsten Seite ist das Vorgehen dargestellt. 

1. Eingabedaten 

2. initiales Clustering 

3. Centroidbestimmung 

4. Neueinteilung der Cluster 

5. Gehe zu 3. 
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Abbildung 24: Clustering mit k-Means 
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Die Abbildung zeigt den initialen Schritt der (zufalligen) Zuweisung der Objekte zu einem Cluster, 
die Berechnung der Centroide und die Neuberechnung der Cluster. Manche k-Means-Verfahren 
weichen vom vorgestellten Algorithmus in dem Punkt ab, dass die Centroide der neuen Cluster 
nicht erst nach der Umordnung aller Punkte, sondern bei jeder Umordnung angepasst werden. 

Vorteile von k-Means 

• Anzahl der Iterationen vergleichsweise klein. 

• Einfache Implementierung, deswegen ist es ein populares Clusteringverfahren. 

Nachteile von k-Means 

• Anfallig bzgl. Rauschen und Ausreifiern, da alle Objekte in die Berechnung des Centro- 
iden eingehen. 

• Cute initiale Cluster sind oft schwer zu bestimmen. 

• Ergebnis und Laufzeit sind abhangig von der initialen Zerlegung. 

Betrachten wir ein Beispiel genauer. In Abb. 25 sind die Daten gegeben, die wir clustern mochten. 
Wir benutzen die Euklidische Distanz. Wir mochten 3 Cluster bilden und wahlen die Punkte (1, 5), 


9 1 

8 - 

7- 

6 - 

5- 

4- 


■ Daten 


0 H i i i i i i i i i 

0123456789 


Abbildung 25: k-Means - Ausgangssituation 
(2, 6), (3, 6) als Clustermittelpunkte unserer initialen Cluster. 

Nun starten wir das k-Means-Verfahren. Die initialen Cluster sind relativ ungliicklich gewahlt, so 
dass die Punkte (1, 5) und (2, 6) zunachst „allein“ bleiben. Alle anderen Punkte werden dem 
Cluster (3, 6) zugeordnet, da ihre Euklidische Distanz zu (3, 6) geringer ist als zu (1, 5) und (2, 
6). Im nachsten Schritt wandert der Punkt (3, 6) zum Cluster (2, 6), da sein Abstand zu (2, 6) 
geringer als zum Clustermittelpunkt (6.3, 3.9) ist. Der Clustermittelpunkt des Clusters wird zu (2.5, 
6) (Abb. 26). 

Im 3. und 4. Schritt setzt sich der Trend fort, dass unser Cluster (2.5, 6) weitere Punkte vom rechten 
Cluster stiehlt. Die Mittelpunkte verschieben sich dadurch. Im 4. Schritt sieht man, dass nun auch 
der Cluster (1,5) aktiv wird und der Punkt (2,6) ihm zugeordnet wird (Abb. 27 auf der nachsten 
Seite). 

Im 5. Schritt erhalten wir nun endlich die Cluster, die wir erwartet haben. Im Schritt 6 iindert sich 
nichts mehr, so dass das Verfahren beendet werden kann (Abb. 28). 

k-Medoid Ein Verfahren, das dem k-Means-Verfahren sehr ahnlich ist, ist das k-Medoid- 
Verfahren. Der wesentliche Unterschied zu k-Means ist, dass als Reprasentant des Clusters nicht 
der Schwerpunkt, sondern der sogenannte Medoid verwendet wird. Dieser muss ein Objekt aus den 
Eingabedaten sein. 

Das k-Medoid-Verfahren versucht standig, einen Medoid und einen Nichtmedoid zu tauschen. Der 
Nichtmedoid wird zum neuen Medoid, der vorherige Medoid zu einem Nichtmedoid. Dabei muss 
sich naturlich die Qualitat der Cluster verbessern. 
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Abbildung 26: k-Means - 1./2. Schritt 
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Abbildung 27: k-Means - 3./4. Schritt 
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Abbildung 28: k-Means - 5./6. Schritt 
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Ein bekannter Algorithmus ist Partitioning Around Medoids (PAM), der eine sehr griindliche 
Suche in den Eingabedaten durchfiihrt. Dadurch bewertet er die Giite des Clusterings fiir nahezu 
allc moglichen Kombinationen von Medoiden und ist deshalb in der Lage, gute Cluster zu finden. 
Der Nachteil ist allerdings, dass die Laufzeit mit der Anzahl der Eingabeobjekte sehr stark ansteigt 
und PAM daher nur fiir kleine Mengen zu clusternder Objekte geeignet ist. Eine weniger griindliche 
Suche fiihrt Clustering Large Applications based on RANdomized Search (CLARANS) 
durch, der nicht den kompletten Eingaberaum absucht, sondern zufallsbasiert nur einen Teil der 
Daten beriicksichtigt. Dadurch ist er viel effzienter, ohne dabei wesentlich schlechtere Ergebnisse als 
PAM zu liefern. 

Aufgabe 5.6 (k-Means). Gegeben seien die folgenden (zweidimensionalen) Datensatze: 


X 

3 

6 

8 

1 

2 

2 

6 

6 

7 

7 

8 

8 

y 

5 

2 

3 

5 

4 

6 

1 

8 

3 

6 

1 

7 


Finden Sie fiir diese Datensatze 3 Cluster mittels k-Means (d.h. bilden Sie drei Cluster)! Verwenden 
Sie die ersten drei Datentupel als Anfangszentren der Cluster. Berechnen Sie dann die Zugehorig- 
keit aller Datensatze zu einem der 3 Cluster. Nun berechnen Sie auf Basis der gefunden Cluster 
den Medoid/Centroid neu. Dann ordnen Sie wieder alle Datensatze erneut den Clustern zu usw. 
Verfolgen Sie die Wanderung der Zentren. 

Aufgabe 5.7 (k-Means). Erlautern Sie, wie man bei dem k-Means-Verfahren den Centroid berech- 
net. 

5.6.2 Hierarchisches Clustering 

Beirn hierarchischen Clustering wird eine Hierarchie von Clustern derart aufgebaut, dass immer die 
Cluster mit minimaler Distanz (grofiter Ahnlichkeit) verschmolzen werden. Es konnen z.B. iiber- 
geordnete Cluster aus der Vereinigung bereits bestehender Cluster gebildet werden. Eine solche 
Clusterhierarchie ist gerade dann von Vorteil, wenn Daten zu analysieren sind, die naturlicherweise 
eine Hierarchie darstellen. Der Ablauf dieses Verfahrens lasst sich in einer Baumstruktur (Dendro- 
gramrn) darstellen (Abb. 29). 

Ein Dendrogramm ist ein Baum, dessen Knoten jeweils einen Cluster reprasentieren und der 
folgende Eigenschaften besitzt: 

• Die Wurzel reprasentiert die gesamte Datenmenge. 

• Ein innerer Knoten reprasentiert die Vereinigung aller Objekte, die in den darunterliegenden 
Teilbaumen enthalten sind. 

• Die Blatter reprasentieren einzelne Objekte. 


A 
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• 5 



Abbildung 29: Hierarchisches Clustering 


Man unterscheidet zwei Verfahren: 
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Agglomeratives Clustering Beim agglomerativen Clustering wird mit der kleinsten Auflosung 
von Clustern angefangen, den einzelnen Objekten selbst, d.h. anfangs beinhaltet jeder Cluster genau 
ein Objekt. Die zwei jeweils ahnlichsten Cluster werden dann zu einem hierarchisch hoheren Cluster 
verschmolzen. Dieser Vorgang wird wiederholt, bis nur noch ein Cluster vorhanden ist. 

In unserem Beispiel befinden sich die einzelnen Punkte (1,2,3,4,5,6) aus dem Diagramm auf der 
untersten Ebene (Blatter) des Dendrogramms. Dies ist Schritt eins. Im zweiten Schritt werden nun 
zwei Cluster zu einem zusammengefugt , die von ihrer Distanz her am nachsten sind . Fur unser 
Beispiel bedeutet dies, dass nun Cluster (Punkt) 1 und 2 sowie 4 und 5 zu einem Cluster ver- 
schmelzen, da sie die geringste Distanz zueinander haben. Alle anderen Kombinationen der Punkte 
ergeben eine groftere Distanz. Aus diesem Grund werden auch zunachst nur diese Cluster zu jeweils 
einem Cluster verschmolzen. Im nachsten Schritt wird dann der Cluster 1/2 mit dem Cluster 3 
verschmolzen sowie Cluster 4/5 mit Cluster 6. 

Nochmal: Ziel ist es, genau die Cluster zusammenzufugen, die die geringste Distanz / groftte Ahn- 
lichkeit zueinander haben. 

Im letzten Schritt werden nun die beiden Cluster zu einem verschmolzen, so dass nur noch ein 
Cluster vorhanden ist. 

Divisives Clustering Das divisive Clustering baut eine Hierarchie in umgekehrter Reihenfolge 
auf. Es behandelt die gesamte Datenmenge anfangs als einen groften Cluster und teilt sie in kleinere, 
hierarchisch tiefere Cluster ein. Dies erfolgt solange, bis in jedern Cluster genau ein Objekt vorhanden 
ist. 

Nachteilig kann bei beiden Vorgehensmodellen sein, dass einmal gebildete Cluster (friihe Verschmelzungs- 
oder Aufteilungsentscheidungen) nicht wieder aufgelost werden konnen. Der Vorteil dieser Verfah- 
ren ist, dass die Anzahl der Cluster nicht vorgegeben werden muss. 

Hierarchische Verfahren eignen sich besonders dann gut, wenn man an den Verbindungen zwischen 
den Clustern interessiert ist. Implementierungen hierfiir sind weit verbreitet. Aufgrund der notigen 
paarweisen Distanzbildung fiir alle Objekte sind hierarchische Verfahren schlecht skalierbar und 
in der Praxis auf wenige tausend Elemente beschrankt. Weiterhin haben hierarchische Verfahren 
Probleme mit Ausreiftern. 


5.6.3 Erwartungsmaximierung 

Im Gegensatz zu den vorherigen Methoden werden beim Clustering nach Erwartungsmaximierung 
(EM) die Objekte nicht bestimmten Clustern eindeutig zugeordnet. Objekte konnen zu mehreren 
Clustern gehoren, jeweils mit einer bestimmten Wahrscheinlichkeit. 

Eine Wahrscheinlichkeitsverteilung ist eine Abbildung, die jedem moglichen Ausgang eines Zufallsex- 
periments eine Wahrscheinlichkeit zuordnet. Beim Clustering durch Erwartungsmaximierung nimmt 
man also an, dass die Daten aus einem Zufallsexperiment entstanden sind, und approximiert die 
Cluster durch z.B. Gauftverteilungen. Eine Gauftverteilung ist eine symmetrische Wahrscheinlich¬ 
keitsverteilung, die einen Graphen in Glockenform induziert. Gauftverteilungen werden benutzt, 
weil sich - durch eine Mischung dieser - beliebige andere Verteilungen approximieren lassen. Man 
nimmt nun an, dass die Eingabedaten aus einer Mischung von k Gauftverteilungen entstanden 
sind. Das Ziel des EM-Algorithmus ist es daher, die k Gauftverteilungen zu finden, fiir die die Wahr¬ 
scheinlichkeit, dass die gegebenen Daten aus ihnen entstanden sind, maximal ist. Dazu beginnt man 
ahnlich wie beim k-Means- oder k-Medoid-Verfahren mit beliebigen Startwerten und verbessert das 
Clustering iterativ. 

Man beginnt also mit k zufallig gewahlten Gauft-Verteilungen. Nun berechnet man die Wahr- 
scheinlichkeiten, mit denen 

• ein Punkt x (Objekt) aus einer 

• der k Gauftverteilungen Ci(i = 1,... ,k) entstanden ist. 

P(x\Ci) = 1 x 

v/(^)‘l Ec. 


Dabei ist: 
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• k die Anzahl der Cluster 

• Ylci die Kovarianzmatrix fur die Punkte im Cluster C t 

• net der Vektor des Mittelpunkts des Clusters i 

Jetzt berechnet man die Gesamt-Wahrscheinlichkeitsdichte fur x : 

k 

P(x) = Y J W i xP(x\C i ) 

i —1 

Wi ist dabei die Anzahl der Objekte im Cluster Ct, geteilt durch die Anzahl aller Objekte, also eine 
Gewichtung entsprechend der Grofie des Clusters (relative Haufigkeit). 

Die Wahrscheinlichkeit, mit der ein bestimmtes Objekt x zu einem Cluster Ci gehort, ist (Satz von 
Bayes): 


P{Ci\x) = Wi x 


P{x\Cj) 

P(x) 


Um zu priifen, ob die gegebenen Daten mit maximaler Wahrscheinlichkeit aus den errechneten 
Gaufiverteilungen entstanden sind, werden alle (fiir alle Objekte) Wahrscheinlichkeitsdichten zu 

einer Gesamt-Wahrscheinlichkeitsdichte summiert: 


E=J2 log (P(x)) 

x£D 

E soli maximiert werden. 

Der Algorithmus arbeitet iterativ. Er berechnet zu den initialen Belegungen die Wahrscheinlichkei- 
ten P(xi), P(xj\Ci) und P(Ci\xj), um dann aus diesen neue Mittelwerte der k Cluster zu errechnen, 
aus denen sich dann wiederum neue Wahrscheinlichkeiten ergeben. Dies wird solange wiederholt, 
bis E nicht mehr erhoht werden kann. 

Rechnerisch kann nun ein Objekt mehreren Clustern angehoren, namlich gerade denen, fiir die 
P(Ci\xj) > 0 ist. Um der Einschrankung des partitionierenden Clustering zu geniigen, dass ein 
Objekt hochstens einem Cluster angehort, kann man die Objekte demjenigen Cluster Ci zuordnen, 
fiir den P(Ci\xj ) maximal ist. 

Clustering nach Erwartungsmaximierung hat ebenso wie die Verfahren nach Mittelpunktbestim- 
mung Probleme, Cluster zu finden, die bestimmte Eigenschaften aufweisen. So konnen beispielsweise 
Cluster, die stark unterschiedliche raumliche Strukturen besitzen, schlecht von solchen Verfahren 
erkannt werden. Fiir solche Cluster bietet sich das dichtebasierte Clustering an. 

5.6.4 Dichtebasiertes Clustering 

Statt einen Cluster als eine Menge von Objekten, die moglichst nah an einem gewissen Mittelpunkt 
liegen, kann man ein Cluster auch als eine Menge von Objekten ansehen, die in einer bestimmten 
Dichte zueinander stehen und von anderen Clustern durch Regionen geringerer Dichte getrennt wer¬ 
den. Die lokale Punktdichte fiir jeden Punkt im Cluster muss eine vorher festgelegte Mindestdichte 
erreichen. Die Menge von Objekten, die einen Cluster ausmacht, ist raumlich zusammenhangend. 
Cluster, die stark unterschiedliche raumliche Strukturen besitzen, werden schlecht von anderen Ver¬ 
fahren erkannt. In solchen Fallen ist das dichtebasierte Clustering von Vorteil. 

5.7 Naive Bayes 

Wir kehren zur Klassifikation zuriick, bleiben aber beim wahrscheinlichkeitsbasierten Ansatz. Das 
Ziel ist nun die Vorhersage der wahrscheinlichsten Klasse. Dabei findet kein Training eines Modells 
statt. Die Vorhersage wird direkt aus den Trainingsdaten berechnet. Dabei gehen wir von einer 
wichtigen Grundannahme aus: Alle Attribute sind voneinander unabhangig. 
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5.7.1 Bayessche Formel 

Sei Y ein Ereignis mit P(Y) > 0. Dann heifit 


P{X\Y) 


P(X A Y) 

P(X ) 


bedingte Wahrscheinlichkeit von X unter der Bedingung Y. Falls P(Y) = 0, so 1st die bedingte 
Wahrscheinlichkeit nicht definiert. 

Stellt man die Formel fur die bedingte Wahrscheinlichkeit urn, so erhalt man: 


P(X AY) = P(Y) * P(X\Y) 


Betrachtet man die bedingte Wahrscheinlichkeit von Y beziiglich X, so ergibt sich analog: 

P(Y A X) = P(X) * P(Y\X) 


Da das logische Und kommutativ ist, gilt: 

P(Y) * P(X\Y) = P(X) * P(Y\X) 


Somit erhalt man die Bayessche Formel: 


P(X\Y) 


P(Y\X)*P(X) 

P(Y) 


5.7.2 Berechnungsgrundlagen 

Sei A = {ai,... ,a n } eine Menge von Attributwerten, z.B. { sunny, hot}. Wir mochten berechnen, 
ob (nicht) gespielt wird (yes/no), wenn es sunny und hot ist. 

Mit der Bayesschen Formel erhalten wir: 

P{[sunny, hot]\yes) * P{yes) 

P(yes\[sunny, hot]) =- p(|s „ nn!)>M) - 

Analog berechnen wir 


P(no\ [sunny, hot]) 


P([sunny, hot]\no) * P(no ) 
P([sunny, hot]) 


Wir sagen dann yes vorher, wenn P(yes\[sunny, hot]) grofier als P(no\[sunny, hot]) ist, sonst no. 
Wir sehen, dass in beiden Formeln im Nenner der Term P([sunny, hot]) vorkommt. Da dieser 
fur beide Ausdriicke gleich ist und wir ja nur beziiglich der Grofie vergleichen, konnen wir diesen 
weglassen. Wir reden aber nun nicht mehr von P, sondern von Likelihood L: 


L(yes\[sunny,hot ]) = P([sunny, hot\\yes) * P(yes) 

L(no\[sunny, hot]) = P([sunny,hot]\no) * P(no) 

Der Naive-Bayes-Algorithmus geht von der Unabhangigkeit der Attribute aus und ersetzt: 


P([sunny,hot]\yes) = P(sunny\yes) * P(hot\yes) 

Nun nochmal in der Ubersicht: Die Vorhersage der Klasse erfolgt liber folgende Werte. 
Relative Haufigkeit h[a, k] des Attributs a in der Klasse k 

n 

Likelihood L[k\(A) = h[ai,k\ x h[k\ 

2=1 

Wahrscheinlichkeit P[kj\(A) = 
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Vorhersage k m : P m (A) = max(P[fcj](.A)) 

i 

Die relative Haufigkeit h[a,k] ist exakt unser P(a\k). Wir ersetzen aber P(a\k) lieber durch die 
relative Haufigkeit h[a, k], da wir die Information fiber die Wahrscheinlichkeit nicht wirklich haben, 
sondern nur eine kleine Menge von gegebenen Beispieldaten. Die Likelihood hatten wir oben bereits 
eingefiihrt. 

Wir vergleichen die Likelihoods miteinander und nehmen den grofiten Wert. Um wieder Wahr- 
scheinlichkeitswerte zu erhalten, normalisieren wir unsere Likelihoods, so dass deren Summe gerade 
1 ergibt. Dies erreichen wir gerade dadurch, dass wir alle Likelihoods durch die Gesamtsumme alter 

Likelihoods dividieren: J2L[ki](A). 

i 

Wir erlautern das Vorgehen nochmal an einem Beispiel. 

5.7.3 Beispiel Wetterdaten 

Wir beziehen uns wieder auf das Wetter-Beispiel (Tabelle 10 auf der nachsten Seite). 


Tag 

outlook 

temperature 

humidity 

windy 

play 

1 

sunny 

hot 

high 

false 

no 

2 

sunny 

hot 

high 

true 

no 

3 

overcast 

hot 

high 

false 

yes 

4 

rainy 

mild 

high 

false 

yes 

5 

rainy 

cool 

normal 

false 

yes 

6 

rainy 

cool 

normal 

true 

no 

7 

overcast 

cool 

normal 

true 

yes 

8 

sunny 

mild 

high 

false 

no 

9 

sunny 

cool 

normal 

false 

yes 

10 

rainy 

mild 

normal 

false 

yes 

11 

sunny 

mild 

normal 

true 

yes 

12 

overcast 

mild 

high 

true 

yes 

13 

overcast 

hot 

normal 

false 

yes 

14 

rainy 

mild 

high 

true 

no 


Tabelle 10: Wetter-Daten 

Wird an einem Tag mit folgenden Eigenschaften gespielt? 


outlook = sunny 
temperature = hot 
humidity = normal 
windy = true 


5.7.4 Naive-Bayes-Algorithmus 

Schritt 1 Ermittlung der relativen Haufigkeiten 


h[sunny, yes\ 


2 

9 


weil 


• es 9 Tage gibt, an denen gespielt wurde ( play=yes ), und 


• an 2 dieser Tage outlook=sunny war. 
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play 



yes 

no 


sunny 

2/9 

3/5 

outlook 

overcast 

4/9 

0/5 


rainy 

3/9 

2/5 


hot 

2/9 

2/5 

temperature 

mild 

4/9 

2/5 


cool 

3/9 

1/5 

humidity 

high 

3/9 

4/5 

normal 

6/9 

1/5 

windy 

true 

3/9 

3/5 

false 

6/9 

2/5 


Schritt 2 Berechnung der Likelihoods 

L[yes\ ( sunny , hot , normal , true) 

=h[sunny , yes]*/i[/iot, yes] *h[normal, yes]*h[true, yes]*h[yes\ 

2/9 * 2/9 * 6/9 * 3/9 * 9/14 

« 0,007055 

L [no] (sunny, hot , normal , true ) 

= /i [sunny, no] * /i[hof, no] * h[normal, no] * /i[true, no] * /i[no] 

3/5 * 2/5 * 1/5 * 3/5 * 5/14 

« 0,010286 

Schritt 3 Berechnung der Wahrscheinlichkeiten (wir kiirzen sunny,hot,norm,al,true mit A ab). 

P[yes](A)=L[yes](A)/(L[yes](A)+L[no\(A)) 

= 0,007055 /( 0,007055 +0,010286) 

« 0,406835 

P[no\(A) =L[no\(A) /(L[yes\(A)+L[no\(A)) 

= 0,010286 /( 0,007055 +0,010286) 

« 0,593165 

Schritt 4 Vorhersage Wir sagen die Klasse vorher, die die grofite Wahrscheinlichkeit liefert. 
(P[yes\ (A ) = 40,68%) < (P[no\ (A) = 59,31%) =+ NO 


5.7.5 Aufgaben 

Aufgabe 5.8 (Naive Bayes). Tabelle 11 (vgl. Aufgabe 5.3 auf Seite 45) enthalt 12 Datensatze mit 
folgenden Attributen: 

• Alternative: Gibt es in der Nahe ein geeignetes anderes Restaurant? (ja/nein) 

• Fr/Sa: 1st Freitag oder Samstag? (ja/nein) 

• Hungrig: Bin ich hungrig? (ja/nein) 

• Gaste: Wieviele Leute sind irn Restaurant? (keine/einige/voll) 

• Reservierung: Habe ich reserviert? (ja/nein) 

• Typ: Um welche Art von Restaurant handelt es sich? (Franz./Chin./Ital./Burger) 

• Wartezeit: Welche voraussichtliche Wartezeit wird vom Restaurant geschatzt? (0-10/10-30/30- 
60 / >60) 

• Warten (Zielattribut): Warte ich, wenn alle Tische besetzt sind? (ja/nein) 

Berechnen Sie mit Naive Bayes, ob wir in folgenden Fallen warten oder nicht. 


Alt. 

Fr/Sa 

Hung. 

Gaste 

Reserv. 

Typ 

Zeit 

Warten 

ja 

nein 

ja 

einige 

nein 

Franz. 

30-60 


ja 

ja 

ja 

voll 

ja 

Chin. 

10-30 


nein 

nein 

nein 

keine 

nein 

Burger 

0-10 
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Alt. 

Fr/Sa 

Hung. 

Gaste 

Reserv. 

Tvp 

Zeit 

Warten 

ja 

nein 

ja 

einige 

ja 

Franz. 

0-10 

ja 

ja 

nein 

ja 

voll 

nein 

Chin. 

30-60 

nein 

nein 

nein 

nein 

einige 

nein 

Burger 

0-10 

ja 

ja 

.ja 

ja 

voll 

nein 

Chin. 

10-30 

.ja 

ja 

ja 

nein 

voll 

ja 

Franz. 

>60 

nein 

nein 

nein 

ja 

einige 

ja 

Ital. 

0-10 

ja 

nein 

nein 

nein 

keine 

nein 

Burger 

0-10 

nein 

nein 

nein 

ja 

einige 

ja 

Chin. 

0-10 

.ja 

nein 

ja 

nein 

voll 

nein 

Burger 

>60 

nein 

ja 

ja 

ja 

voll 

.ja 

Ital. 

10-30 

nein 

nein 

nein 

nein 

keine 

nein 

Chin. 

0-10 

nein 

.ja 

ja 

ja 

voll 

nein 

Burger 

30-60 

ja 


Tabelle 11: Restaurant-Daten 


Aufgabe 5.9 (Naive Bayes). Seien folgende Datensiitze gegeben (a=angest, s=selbst, v=verh, 
l=ledig, M=Miete, E=Eigentum) 


Beruf 

a 

a 

a 

a 

s 

s 

s 

s 

Fam.st. 

V 

1 

V 

V 

1 

1 

V 

V 

Kinder 

j 

n 

n 

j 

j 

n 

j 

n 

Wohnung 

M 

E 

M 

E 

E 

M 

E 

E 


Wo lebt ein lediger Angestellter mit Kindern? 
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6 Datenvorbereitung 

Experience is something you don’t get until just after 
you need it. 

Olivier’s Law 

Bisher haben wir uns uni die in der Praxis wohl schwierigste Aufgabe gedriickt: die Datenvorberei¬ 
tung. Unter Vorbereitung fassen wir die 3 ersten Teilprozesse des KDD-Prozesses (vgl. Abbildung 2 
auf Seite 7) zusammen. 

6.1 Motivation 

Nicht alle Daten konnen direkt aus der Datenbank in ein Data-Mining-Verfahren iibertragen wer- 
den. Sie miissen vielfach erst aufbereitet werden. Dazu ist es notig, sich mit den konkreten Daten 
auseinanderzusetzen. Welche Probleme konnen auftauchen? 

• Wertebereiche und Ausreifier. Eine genauere Betrachtung der Wertebereiche der Attribute 
ist insbesondere bei metrischen Daten von Bedeutung. So ist es hauhg sinnvoll, nicht jede 
einzelne Auspragung eines Attributs zu beriicksichtigen. Alternativ konnten Auspragungen 
gruppiert werden (z.B. Altersgruppen). Bei eingehender Betrachtung der Wertebereiche fallen 
meist auch sogenannte Ausreifler auf - einzelne Auspragungen, die sehr stark von den anderen 
abweichen (z.B. ein 75- und ein 90-jahriger in einer Gruppe von 30- bis 50-jahrigen). Ob solche 
Ausreifier fur das Data Mining ausgeblendet oder adaptiert werden sollten oder lieber doch 
im Originalzustand zu verwenden sind, hangt vom konkreten Kontext ab. 

• Fehlende, ungenaue, falsche, widerspriichliche Werte. Verschiedene Faktoren konnen 
dazu fiihren, dass ein Datensatz fehlende, ungenaue oder gar falsche Attributwerte enthalt. Die 
Ursachen konnen z.B. in einer Befragung selbst begriindet sein. So konnen befragte Personen 
die Beantwortung einzelner Fragen aus personlichen Griinden verweigern, oder gar falsche 
Angaben machen. Ein weiterer Grund fiir fehlende Attribute kann die Tatsache sein, dass die 
Struktur der Datenbank verandert wurde und bereits erfasste Datensatze nicht iiberarbeitet 
wurden. Und natiirlich muss auch immer mit der Moglichkeit von Fliichtigkeitsfehlern gerech- 
net werden. 

Wie geht man nun mit solchen Daten um? Beim Urngang mit fehlenden Daten stellt sich die 
Frage nach der Bedeutung des Fehlens. Ist die Tatsache des Fehlens selbst eine Information, 
die sich auf das Ergebnis des Data Minings auswirkt? Oder kann die Ursache des Fehlens 
vielleicht einen Einfluss auf das Ergebnis haben? In vielen Fallen hilft es, fehlende Werte 
durch spezielle Auspragungen zu ersetzen, die nicht auftreten konnen (z.B. negative Zahlen 
bei Stiickzahlen). 

• Dimensionsreduktion. Meist liegen in einer Datenbank zu einem Datensatz viele Attribute 
vor. Dies fiihrt beim Data Mining zu teilweise hochdimensionalen Problemstellungen. Dabei 
treten zwei wesentliche Probleme auf: 

— Die visuelle Wahrnehmungsfahigkeit des Menschen beschrankt sich auf den 3-dimensionalen 
Raum bzw. den 4-dimensionalen Raum-Zeit-Eindruck. 

— Eine hohe Dimensionalitat bedeutet auch immer einen hohen Rechenaufwand und somit 
erhohte Programmlaufzeiten. Diese sind aber fur etliche Anwendungsfalle inakzeptabel. 

Die Reduktion einer zu hohen Dimensionalitat kann auf zweierlei Weise erfolgen. Zum einen 
konnen einzelne Attribute einfach ausgeblendet werden. Zum anderen kann versucht werden, 

abhangige Komponenten zusammenzufassen. 

• Datentransformation, Skalierung etc. Daten konnen in Formaten vorliegen, die fiir das 
jeweilige Data-Mining-Verfahren unpassend sind. Z.B. konnen bestimmte Angaben in mm, 
andere in km angegeben sein. 

Die Datenvorbereitung spielt beim Data Mining eine wichtige Rolle, da die Qualitat der Daten nicht 
nur fiir das Laufzeitverhalten des eigentlichen Data-Mining-Prozesses, sondern auch fiir die Qualitat 
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des Resultats wichtig ist. Data Mining ist ein typisch iterativer Prozess: Man probiert etwas aus, 
berechnet ein Resultat und priift dieses. Haufig ist man natiirlich nicht gleich im ersten Durchlauf 
erfolgreich. Nach allgemeiner Erfahrung liegt der Aufwand in diesem iterativen Prozess mit etwa 
80% bei der Datenvorbereitung. Die Datenvorbereitung ist aus einern ganz einfachen Grund fiir 
die Qualitat der Resultate essentiell. Wenn man schlechte (bzw. schlecht vorbereitete) Daten hat, 
so kann man nicht erwarten, dass die Verfahren dies ausbiigeln. Es gibt ein altes Prinzip, welches 
auch hier zutrifft, GIGO: garbage in, garbage out. 

6.2 Arten der Datenvorbereitung 

Folgende Klassen der Vorbereitung unterscheidet man: 

Datenselektion und -integration Daten auswahlen und zusammenfugen. Daten aus unter- 
schiedlichen Quellen werden zu einer grofien Datenbank vereinigt. 

Datensauberung Daten werden bereinigt. 

Datenreduktion Daten werden reduziert, z.B. beziiglich der Dimension. 

Datentransformation Daten werden umgewandelt, um so adaquate Darstellungsformen (in Ab- 
hangigkeit vom jeweiligen Verfahren) fiir die Daten zu bekommen. 

Man beachte, dass Datensauberung und -reduktion gernafi dem KDD-Bild (Abb. 2 auf Seite 7) zum 
2. Schritt (Datenvorverarbeitung) gehoren. 

6.2.1 Datenselektion und -integration 

Meistens hat man es mit dezentralen Datenbanken zu tun. Daraus ergeben sich natiirlich Probleme: 

• Jede Filiale hat unter Umstanden ihre eigene Datenbank. 

• Es ist eine unterschiedliche Semantik und Syntax der Attribute moglich. 

Die Datenintegration fiigt Daten mehrerer Datensatze unterschiedlicher Quellen (verschiedene Da¬ 
tenbanken) zusammen. Ergebnis sollte ein schliissiger Datensatz sein. Folgende Probleme konnen 
hierbei auftreten: 

Entitatenidentifikationsproblem Welche Merkmale besitzen dieselbe Semantik? Hat man z.B. 
2 Attribute Kunden_ID und Kundennummer, so stellt sich die Frage, ob beide Attribute das 
gleiche bedeuten. Eine Losung dieses Problems bietet oftmals die Nutzung von Metadaten 
(Daten, die die Daten beschreiben). 

Redundanzen Redundanzen konnen durch Inkonsistenzen in der Nomenklatur von Attributen 
oder Dimensionen auftreten. Betrachtet man z.B. die Attribute Name und name, so sind beide 
Attribute syntaktisch unterschiedlich, besitzen aber wohl dieselbe Semantik. 

Widerspriiche Beim Zusammenfugen von unterschiedlichen Datenquellen konnen Widerspriiche 
in den Datenbanken auftreten, z.B. unterschiedliche Adressen fiir die gleiche Person. 

Datenwertkonflikte Es kann vorkommen, dass in den Datensatzen eines Attributs unterschiedli¬ 
che Werte auftreten. Beispiel: Entfernung in Meilen und Kilometern. 

6.2.2 Datensauberung 

Warum Datensauberung? Daten in der realen Welt sind unvollstandig, mit Fehlern oder Aus- 
reifiern behaftet oder inkonsistent. Dies kann in Vorbereitungsschritten beseitigt werden (data clea¬ 
ning), was oftmals von grofier Wichtigkeit ist, weil unvollstandige Daten zu Konfusion (und darnit 
Fehlern) beim DM-Prozess fiihren konnen. Daraus konnen sich dann unzuverlassige Resultate erge¬ 
ben. 

Es ist allerdings wichtig, beim Bereinigen darauf zu achten, dass moglichst keine neue Information 
hinzugefiigt wird. D.h. eingefiigte Werte/Daten sollten informationsneutral sein, um die vorhande- 
nen Informationen, die aus der realen Welt stammen, nicht zu verzerren oder zu verfalschen. Dies 
kann man in der Praxis haufig nicht absichern, man sollte es aber als Ziel im Blick behalten. 


6.2 Arten der Datenvorbereitung 

Was muss bereinigt werden? 
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• Fehlende Daten 

• Verrauschte Daten 

• Falsche Daten 

• Inkonsistente Daten 

Fehlende Daten Bei fehlenden Werten muss man beachten: Sind es Fehler im eigentlichen Sinn, 
oder lasst sich aus dem Fehlen eines oder mehrerer Werte eine Information ableiten (z.B. wenn 
jemand bei einem Kreditantrag Felder nicht ausfiillt)? Dies muss man fur den jeweiligen Sachverhalt 
entscheiden. Folgende Moglichkeiten hat man, um auf fehlende Daten zu reagieren: 

• Attribut ignorieren 

Aber seien Sie vorsichtig (s.o.): Die leeren Felder konnten als Information gewertet werden. 
Und beachten Sie, dass man dies nur dann rnachen kann, wenn man geniigend vollstdndige 
Attribute hat. 

• Fehlende Werte manuell einfiigen 

Das manuelle Einfugen ist gerade bei grofien Datenmengen sehr zeitintensiv. Aufierdem kann 
es praktisch undurchfiihrbar sein. Beispielsweise fehlten beim Data Mining Cup 2001 [DMC] 
fur etwa 500 bzw. 1000 Kunden (Lern- bzw. Testdaten) die Werte fur Kunde_seit. 

• Globale Konstante zum Ausfiillen des fehlenden Werts (z.B.: unbekannt, minus unendlich) 
Diese Methode ist sinnvoll, wenn ein leeres Feld als Information angesehen wird oder viele 
Werte fehlen. 

• Durchschnittswert aller Eintrage derselben Klasse 

Dies ist eine recht einfache Moglichkeit der Datensauberung. Sie bietet sich an, wenn die 
(numerischen) Werte der Klasse dicht beieinander liegen. Denn dann ist die Annahme ge- 
rechtfertigt, dass die fehlenden Werte auch in diesem Bereich liegen. Dies geht i.allg. auch 
sehr schnell. 

• Wahrscheinlichsten Wert eintragen (anhand statistischer Methoden ermitteln) 

Hierfiir sollte man sich entscheiden, wenn bei einem Fall oder einigen wenigen Fallen kein 
Wert vorhanden ist und man geniigend Anhaltspunkte fur einen sinnvollen/begrundeten Wert 
hat. Das Finden des wahrscheinlichsten Werts kann aber sehr aufwandig sein. 

• Datensatz als fehlerhaft kennzeichnen und von Weiterverarbeitung ausnehmen 

So kann man vorgehen, wenn man genug vollstandige Daten hat (DMC 2001: bei Lerndaten 
insg. 10.000 und bei Testdaten 17.128) und Einfugen mit unverhaltnismafiig hohem Aufwand 
verbunden ist oder mit unbefriedigenden Ergebnissen (Veranderung der Semantik der Daten) 
zu rechnen ist. 

Achtung: Das Einfugen von Werten (nach welcher Methode auch inuner) fiihrt zur Veranderung 
des Datenbestands und kann die Qualitat der Daten beeinflussen. Ebenso kann die Semantik der 
Daten verfalscht werden. Ignorieren/Weglassen verfalscht die Daten beziiglich der Wahrscheinlich- 
keitsverteilung der Attributwerte. Wir verletzen damit unser Ziel, dass jegliche Veranderung unseres 
Datenbestands informationsneutral sein sollte. Wir haben aber bei fehlenden Daten keine andere 
Chance. 

Verrauschte Daten sind fehlerhafte Werte, die meist durch ungenaue Messwerte oder Schatzun- 
gen entstehen. Man kann diese Daten glatten (angleichen) durch: 

• Klasseneinteilung (binning): Man gruppiert die Daten und ersetzt sie durch Mittelwerte oder 
Grenzwerte. 

• Verbundbildung (clustering): Hier werden die Ausreifier durch Verbundbildung erkannt. Man 
steckt tilinliche Werte in Gruppen. Die Ausreifier liegen dann aufierhalb dieser Gruppen. 
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• Kombinierte Maschine/Mensch-Untersuchung (combined computer and human inspection): 
Der Computer erstellt Liste (scheinbar) befremdlicher Werte, danach filtert der Mensch die 
Ausreifier aufgrund von Erfahrungswerten heraus. 

• Regression: Man beschreibt die Daten als mathematische Funktion. Dann ersetzt man die 
realen Datenwerte durch die berechneten Funktionswerte der gefundenen Funktion. 

Inkonsistente und falsche Daten konnen z.B. durch Verletzen der referenziellen Integritat 
(z.B.: Verweis eines Fremdschliissels auf ein nicht existierendes Schliisselattribut) auftreten. 

Beispiel 6.1 (Inkonsistente Daten). Seien die folgenden Tabellen gegeben: 

Kundendaten 

Ku-Nr. Name Ort 

1 Meier Wismar 

2 Schulze Schwerin 

3 Lehmann Rostock 

In der Bestellungen-Tabelle wird auf den Kunden 4 verwiesen, den es aber gar nicht gibt. 

Folgende Korrekturen sind moglich: 

• Zuhilfenahme anderer Datensatze 

• Kiinstliches Anlegen eines fehlenden Schliisselattributs 

• Falls nicht moglich: betreffenden Datensatz loschen oder als fehlerhaft markieren. 

Beispiel 6.2 (Fehlerhafte, unzulassige Werte). 

• Verletzter Wertebereich: Wenn auf einstellige natiirliche Zahlen beschrankt, dann diirfen keine 
Zahlen x < 0 oder x > 9 auftauchen. 

• Verletzte Plausibilitatsbeziehungen: Sonst umsatzschwacher Kunde hat plotzlich sehr hohen 
Jahresumsatz. 

6.2.3 Datenreduktion 

Motivation: Bei vielen Data-Mining-Aufgaben sind die Datensatze sehr umfangreich. Dies kann 
dazu fiihren, dass Data Mining mit diesen Datenmengen sehr aufwandig bzw. unmoglich ist. Durch 
Datenreduktion versucht man, dieses Problem zu mindern oder zu losen. 

Strategien Folgende Techniken konnen angewendet werden. 

1. Aggregation 

2. Dimensionsreduktion 

3. Datenkompression 

4. Numerische Datenreduktion 

Aggregation Unter Aggregation (auch Verdichtung) versteht man das Zusammenfassen von 
Fakten zu einem Fakt oder das Generalisieren der Daten. So kann man z.B. Daten durch ihre 
Mittelwerte ersetzen oder Teilwerte zu einer Gesamtsumme zusammenfassen (s. auch Abschnitt 6.2.4 
auf Seite 67). 

Dimensionsreduktion Bei der Dimensionsreduktion werden irrelevante Daten (Attribute) ver- 
nachlassigt und relevante Daten einbezogen. 

• Schrittweise Vorwartsauswahl: Gute Attribute werden schrittweise in die Zielmenge eingeglie- 
dert. 

• Schrittweise Ruckwartseliminierung: Ausgehend von der Gesamtmenge werden schlechte At¬ 
tribute schrittweise eliminiert. 


Bestellungen 

Bestell-Nr. Ku-Nr. 


1 

3 
2 

4 


2 

1 

1 

4 


• Kombination aus beiden 




6.2 Arten der Datenvorbereitung 
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Datenkompression Die Daten werden entweder transformiert oder kodiert, um eine Reduktion 
der Datenmenge und damit eine Reduktion der Komplexitat des Data Mining zu erhalten. Z.B. 
kann man mehrere Binarattribute zu einem Byte zusammenfassen. Ebenso kann man die einzel- 
nen, separaten Attribute fur die Produkte Loffel, Gabel, Messer ... zu einem Attribut Besteck 
zusammenfassen. 

Numerische Datenreduktion Eine numerische Datenreduktion kann man auf der Basis von 
Stichproben realisieren. Man nimmt also nicht die gesamte Datenmenge, sondern nur eine - natiirlich 
viel ldeinere - Stichprobe. Zu ldaren ist natiirlich die Frage, wie man die Stichprobe bildet. 

Zufallige Stichprobe Es werden zufallig Datensatze aus der Quelldatenmenge ausgewahlt. 

Representative Stichprobe Es werden zufallig Datensatze aus der Quelldatenmenge ausgewahlt, 
allerdings so, dass die Stichprobe reprasentativ ist. Man kann die Auswahl unter Beachtung 
der Haufigkeitsverteilungen bestimmter Attribute treffen. Ebenso sollte man absichern, dass 
jede Attributauspriigung - bei nominalen und ordinalen Attributen - vorkommt. Bei Klassi- 
hkationsproblemen sollte jede Klasse vorkommen. 

Geschichtete Stichprobe Wie bei der reprasentativen Stichprobe werden Datensatze zufallig aus¬ 
gewahlt. Es wird aber darauf geachtet, dass wichtige Attribute auch einen Wert im Datensatz 
besitzen. 

Inkrementelle Stichproben Eine erste Stichprobe wird nach der Datenanalyse Schritt fiir Schritt 
erweitert. Dies kann nach einem der oberen Verfahren geschehen. 

Average Sampling Die Quelldatenmenge wird in Teile gespalten und jeder Teil unabhangig von 
den anderen einer Analyse unterzogen. Die Ergebnisse werden im Anschluss daran gemittelt 
und so zu einem Gesamtergebnis vereint. 

Selektive Stichprobe Aus der Quelldatenmenge werden unergiebige Datensatze herausgehltert. 
Anschliefiend wird eine Stichprobenziehung durchgefiihrt. 

Windowing Ahnlich wie bei der inkrementellen Stichprobe wird hier von einer Basisstichprobe 
ausgegangen. Diese wird nach der Analyse aber nur um ergiebige Datensatze (von denen Da¬ 
ta Mining Methoden viel lernen konnen) erweitert. Sprich: Zu Beginn wird nur ein Teil der 
Trainingsdaten (Datenfenster) verwendet. Dann werden nur noch Trainings-Datensatze in die 
Trainingsmenge aufgenommen, bei denen sich das erlernte Verfahren (z.B. ein Entscheidungs- 
baurn) falsch verhalt. 

Clustergestiitzte Stichprobe Bei dieser Methode werden ahnliche Datensatze in Clustern zu- 
sammengefasst und ein Reprasentant gewahlt, der im Anschluss fiir die Analyse herangezogen 
wird. 

Alternativ kann man eine numerische Datenreduktion auch fiber lineare Regression erreichen. Dabei 
ersetzt man einfach die Daten durch die Koefhzienten einer linearen Regressionsfunktion. D.h. die 
Daten werden durch eine Funktion ersetzt, die mittels linearer Regression ermittelt wurde. 

6.2.4 Datentransformation 

Oftmals sind die Daten in ihrer urspriinglichen Form nicht besonders gut zum Data Mining geeignet. 
Die Datentransformation hat die Aufgabe, die Daten in eine Form umzuwandeln, die fiir das jeweilige 
Data-Mining-Verfahren geeignet ist. Folgende Transformationen konnen erforderlich sein: 
Anpassung: 

1. von unterschiedlichen Datenstrukturen 

2. der Datentypen 

3. von Konverticrungen oder Kodierungen 

4. von Zeichenketten 

5. von Datumsangaben 

6. von Mafieinheiten und Skalierungen 
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Weitere Transformationen konnen in Betracht kommen: 

1. Kombination oder Separierung von Attributen 

2. ggf. Berechnung abgeleiteter Werte 

3. Datenaggregation 

4. Datenglattung 

Anpassung unterschiedlicher Datenstrukturen Innerhalb der Datenbank kann es Attribute 
mit nicht kompatiblen Datenstrukturen geben. Diese miissen gegebenenfalls angepasst werden. 

Anpassung der Datentypen Betrachtet man die 2 als Datum, so stellt sich die Frage: 1st diese 
2 vom Datentyp Char oder Integer, und sollte eine Umwandlung stattfinden? 

Anpassung von Konvertierungen oder Kodierungen Datenquelle und Zielmenge benutzen 
evtl. unterschiedliche Kodierungen. Diese muss man anpassen, um die Korrektheit der Semantik 
sicherzustellen. 

Z.B. erzeugt die Binarkodierung aus Attributen mit einer bestimmten Anzahl Merkmalsauspra- 
gungen eine Menge binarer Attribute. Jeder Merkmalsauspragung wird ein neues, binares Attribut 
zugeordnet, das den Wert 1 annimmt, wenn die Auspragung in einern einzelnen Datensatz vor- 
kommt und sonst den Wert 0 besitzt (vgl. Beispiel 4.8 auf Seite 29). Dieses Verfahren kann z.B. 
das Attribut Kaufverhalten mit den Auspragungen Vielkaufer, Seltenkaufer und Nichtkaufer 
so transformieren, dass man das Attribut Kaufverhalten durch 3 Binarattribute Vielkaufer, Selten¬ 
kaufer, Nichtkaufer ersetzt. Auf diese Weise kann ein qualitatives Attribut in mehrere binarkodierte 
Attribute uberfiihrt werden. Das Binarkodierungsverfahren bereitet qualitative Attribute fiir Al- 
gorithmen vor, die numerische Attribute erfordern. Bei der Anwendung der Binarkodierung ist zu 
beachten, dass die Performanz der Mustererkennung durch die steigende Attributanzahl beeintrach- 
tigt werden kann. 

Diskretisierung wird angewendet, um den Wertebereich von quantitativen Attributauspragungen 
in endlich vielen Teilmengen zusammenzufassen. Die Diskretisierung kann z.B. bei der Verallgemei- 
nerung des Alters sinnvoll sein, da auf diese Weise die Altersinformationen zu Altersgruppen {jung, 
mittel, alt} zusammengefasst werden konnen und so eine Reduzierung der Attributauspragungen 
erreicht wird. 

Anpassung von Zeichenketten Kann das Data-Mining-Programm mit Umlauten, Grofi- und 
Kleinschreibung sowie Leerzeichen in den Datensatzen umgehen, oder sollte hier eine Umwandlung 
erfolgen? 

Anpassung von Datumsangaben Datumsangaben sind oft unterschiedlich kodiert (auf Grund 
von unterschiedlichen Formaten in verschiedenen Landern, 12.03.2003; 12-03-03; 03-12-03) und er¬ 
fordern daher in den meisten Fallen eine Anpassung. Es konnen auch Daten aus unterschiedlichen 
Zeitzonen vorhanden sein, die auf jeden Fall angepasst werden miissen, da sonst das Ergebnis ver- 
falscht werden konnte. 

Anpassung von Mafieinheiten und Skalierungen Wie bei den Datumsangaben sind bei Mafi- 
einheiten oft nationale Standards Grund fiir die Notwendigkeit von Anpassungen (z.B. Inch; Zen- 
timeter; Yard; Meter). Die Normalisierung transformiert samtliche Merkmalsauspragungen eines 
Attributs auf die Werte einer stetigen, numerischen Skala (z.B. [0,11: x neu = n ). Dabei 

werden alle Werte durch den ermittelten Maximalwert dividiert oder zunachst um den Minimalwert 
subtrahiert (dann ist das Minimum 0) und anschliefiend durch den Maximalwert dividiert. 

Eine andere Normalisierungstechnik berechnet den statistischen Mittelwert und die Standardab- 
weichung der Attributwerte, subtrahiert den Mittelwert von jedem Wert und dividiert dann das 
Ergebnis durch die Standardabweichung. Normalisierung kann dann angewendet werden, wenn Mi¬ 
nimum und Maximum eines Attributes gegeben sind. Die Normalisierung kann z.B. zur Kodierung 
des Alters eingesetzt werden. Der Minimalwert hierbei sind 0 Jahre und der Maximalwert z.B. 100 
Jahre. Ein Alter von 40 Jahren wiirden dann - auf einer Skala von 0 bis 1 - mit 0,4 kodiert werden. 
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Kombination oder Separierung von Attributen Es kann notig sein, verschiedene Attribute 
zu einem neuen zusammenzufiigen wie z.B. Tag, Monat und Jahr zu Datum. Umgekehrt kann es aber 
auch erforderlich sein, das Datum in seine Bestandteile zu zerlegen, um so z.B. den Monatsanfang 
erkennen zu konnen. 

Berechnung abgeleiteter Werte Durch das Berechnen abgeleiteter Werte konnen ganz neue 
Attribute aufgenommen werden. So kann das Attribut Gewinn durch die Differenz der Attributwerte 
Ausgaben und Einnahm.en berechnet werden. 

Datenaggregation Oft liegen die Daten in einer zu feinen Aggregationsebene vor. Wird zum 
Beispiel die Einwohnerzahl von Berlin gesucht und liegen nur die Einwohnerzahlen der einzelnen 
Stadtteile vor, so kann man durch Aggregation (in diesern Fall Summenbildung) die Daten in eine 
hohere Aggregationsebene iiberfuhren. 

Datenglattung Die Hauptidee der Datenglattung (s. auch verrauschte Daten) ist, dass jeder 
(numerische) Wert aus der gegebenen Datenmenge durch die Gleichung 

Wert(i) = Mittelwert(i) + Rauschen 

dargestellt werden kann, wobei i der i-ten Instanz entspricht. Das Ziel der Methode ist, die ur- 
spriingliche Wertmenge durch eine reduzierte Menge zu ersetzen, da man hofft, dass solche Werte 
zu besseren Losungen fiihren. Dariiber hinaus wird das Rauschen in den Daten reduziert. 

Man kennt vier Techniken, mit denen Daten geglattet werden konnen: 

• Eingruppierung ( binning ) 

• Clustering 

• kombinierte menschliche und maschinelle Kontrolle 

• Regression 

Fazit Datentransformation dient dazu, Daten zwischen verschiedenen Formen zu transformieren, 
um eine konsistente Semantik der Attributwerte zu garantieren oder neue Attribute aus bestehenden 
Attributen zusammenzusetzen. Es konnen auch bestehende Attribute in neue Attribute aufgeteilt 
oder Daten zwischen verschiedenen Ebenen aggregiert werden, um eine geanderte Sicht auf die 
Daten zu erhalten. 

6.3 Datenvorbereitung - Beispiel 

Wir erlautern einige Aspekte dieses Kapitels an einem kleinen Beispiel. Dazu nehmen wir an, wir 
hatten unsere Daten bereits aus den unterschiedlichsten Quellen gesammelt und diese in einer 
Datentabelle (Tabelle 12) vereinigt. 

Was fallt uns als erstes auf? 

• Der Wohnort ist bei alien Personen gleich. Dieses Attribut enthalt die Information, dass alle 
in Wisrnar wohnen. Dies wird uns aber bei Analysen nicht helfen, denn wir benotigen ja ge- 
rade unterschiedliche Werte der Attribute, um Unterschiede oder Ahnlichkeiten zwischen den 
Objekten herstellen zu konnen. Dieses Attribut kann folglich geloscht werden. Wir reduzieren 
damit die Dimension des Problems. 

• Das Geschlecht ist mal als m/w angegeben, mal als male/fem. Das konnen wir schnell korri- 
gieren. 

• Beirn Jahresgehalt ist in Datensatz 2 wohl das Gehalt nicht in Tausend angegeben, sondern 
absolut. Auch das konnen wir problemlos andern. 

• Irn Datensatz 12 fehlen etliche Werte. Diesen sollten wir folglich weglassen. 

• Im Datensatz 6 steht bei Betriebszugehorigkeit eine 96. Es gibt 2 Interpretationen: Die 96 
konnte als 1996, also Zugehorigkeit seit 1996 interpretiert werden. Es konnte aber auch sein, 
dass die Betriebszugehorigkeit in Monaten angegeben wurde. Wir entscheiden uns fiir die 
Monate. 
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Pers. Wohn- 

nr. ort 

Ge- 

schlecht 

Alter 

Jahres- 

gehalt 

Betriebs- 

zugehorigkeit 

Position 

Bildungs¬ 

abschluss 

1 

23966 

m 

45 

32 

10 

arb 

Lehre 

2 

23966 

w 

57 

35000 

25 

verw 

Bachelor 

3 

23966 

m 

52 

40 

5 

manager 

Master 

4 

23966 

m 

28 

27 

6 

arb 

Lehre 

5 

23966 

male 

57 

45 

25 

manager 

Master 

6 

23966 

fern 

26 

27 

96 

arb 

Lehre 

7 

23966 

m 

39 

39 

4 

manager 

Master 

8 

23966 

m 

38 

32 

3 

arb 

Lehre 

9 

23966 

m 

42 

31 

15 

arb 

ohne 

10 

23966 

w 

37 

30 

10 

verw 

Abi 

11 

23966 

m 

45 

32 

8 

arb 


12 

23966 

m 

37 


5 



13 

23966 

w 

35 

30 

15 

verw 

Abi 


Tabelle 12: Ausgangsdaten 


• In Datensatz 11 fehlt der Bildungsabschluss. Das konnen wir z.B. korrigieren, indem wir dort 
den haufigsten Wert einsetzen, der fur die gleiche Position (arb) vorkommt: Lehre. 

Aber Vorsicht: Mit dieser Aktion interpretieren wir schon etwas in die Daten hinein, und 
zwar einen moglichen Zusammenhang zwischen Bildungsabschluss und Position. Man konnte 
alternativ ein Verfahren wie k nearest neighbour (vgl. Abschnitt 5.1.1 auf Seite 33) einsetzen, 
um so iiber den/die nachsten Nachbarn einen Wert fur den Bildungsabschluss zu finden. 

Die bereinigten Daten sind in Tabelle 13 dargestellt. 


Pers. 

nr. 

Ge- 

schlecht 

Alter 

Jahres- 

gehalt 

Betriebs- 

zugehorigkeit 

Position 

Bildungs¬ 

abschluss 

i 

III 

45 

32 

10 

arb 

Lehre 

2 

w 

57 

35 

25 

verw 

Bachelor 

3 

m 

52 

40 

5 

manager 

Master 

4 

m 

28 

27 

6 

arb 

Lehre 

5 

m 

57 

45 

25 

manager 

Master 

6 

w 

26 

27 

8 

arb 

Lehre 

7 

m 

39 

39 

4 

manager 

Master 

8 

m 

38 

32 

3 

arb 

Lehre 

9 

m 

42 

31 

15 

arb 

ohne 

10 

w 

37 

30 

10 

verw 

Abi 

11 

m 

45 

32 

8 

arb 

Lehre 

13 

w 

35 

30 

15 

verw 

Abi 


Tabelle 13: Bereinigung der Daten 

Nun miissen wir uns iiberlegen, was das Ziel unserer Analyse sein soil. Zunachst gehen wir davon 
aus, dass wir die Daten clustern wollen. Offensichtlich wird die Personalnummer keine Information 
enthalten. Diese konnen wir also ersatzlos streichen. Fiir das Clustern sind metrische Werte giinstig, 
da man mit diesen besser rechnen kann und folglich bessere Abstandsmafie bekommt. Wir konnen 
die nominalen Attribute einfach durch Integer-Werte kodieren (Tabelle 14 auf der nachsten Seite). 
Wenn wir mit dieser Tabelle clustern (KNIME, 3 Cluster), dann erhalten wir die in Abbildung 30 
auf der nachsten Seite dargestellten Cluster. 

Auffallig ist, dass das Alter offensichtlich ein grofie Rolle spielt. Woran liegt das? Nun, der Abstand 
zwischen einer 26jahrigen und einer 57jahrigen Person ist so gravierend (31), dass die Unterschiede 
in den anderen Attributen im Prinzip keine Rolle spielen. Wie konnen wir das verhindern? Wir 
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Ge- 

schlecht 

Alter 

Jahres- 

gehalt 

Betriebs- 

zugehorigkeit 

Position 

Bildungs- 

abschluss 

0 

45 

32 

10 

0 

1 

1 

57 

35 

25 

1 

3 

0 

52 

40 

5 

2 

4 

0 

28 

27 

6 

0 

1 

0 

57 

45 

25 

2 

4 

1 

26 

27 

8 

0 

1 

0 

39 

39 

4 

2 

4 

0 

38 

32 

3 

0 

1 

0 

42 

31 

15 

0 

0 

1 

37 

30 

10 

1 

2 

0 

45 

32 

8 

0 

1 

1 

35 

30 

15 

1 

2 


Tabelle 14: Codierung Variante 1 
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Abbildung 30: Clusterversuch 1 
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normalisieren alle Daten auf das Intervall [0,1] (Tabelle 15). 


Ge- 

schlecht 

Alter 

Jahres¬ 

gehalt 

Betriebs- 

zugehorigkeit 

Position 

Bildungs- 

abschluss 

0 

0,61 

0,28 

0,32 

0 

0,25 

1 

1 

0,44 

1 

0,5 

0,75 

0 

0,84 

0,72 

0,09 

1 

1 

0 

0,06 

0 

0,14 

0 

0,25 

0 

1 

1 

1 

1 

1 

1 

0 

0 

0,23 

0 

0,25 

0 

0,42 

0,67 

0,05 

1 

1 

0 

0,39 

0,28 

0 

0 

0,25 

0 

0,52 

0,22 

0,55 

0 

0 

1 

0,35 

0,17 

0,32 

0,5 

0,5 

0 

0,61 

0,28 

0,23 

0 

0,25 

1 

0,29 

0,17 

0,55 

0,5 

0,5 


Tabelle 15: Codierung Variante 2 

Nun erhalten wir die in Abbildung 31 dargestellten Cluster (wieder nur bezuglich des Alters). 



Abbildung 31: Clusterversuch 2 - Alter 

Dass die jetzige Clusterbildung sinnvoll ist, zeigt die Darstellung bezuglich des Bildungsabschlusses 
(Abbildung 32 auf der nachsten Seite). 

Zuriick zu den Rohdaten. Nehmen wir an, wir wollen einen Entscheidungsbaum fur diese Daten ent- 
wickeln, und zwar fiir das Zielattribut Jahresgehalt. Jetzt brauchen wir keine metrischen Attribute, 
sondern nominale/ordinale. Wir miissen also in unserer Ausgangstabelle die metrischen Attribute in 
ordinale oder nominale umwandeln. Dies kann man so bewerkstelligen, dass man auf alien Werten 
eines Attributs Clustering durchfuhrt. Man erhalt so zwei Intervalle, die man entsprechend benennt 
(Tabelle 16 auf der nachsten Seite). 

Mit diesen Daten kann man nun z.B. den ID3-Algorithmus anwenden und erhalt mit dem Zielattri¬ 
but Gehalt den in Abbildung 33 auf der nachsten Seite dargestellten Entscheidungsbaum. 
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n i i i i i i i i i i i i i i i i i i i r 

0,050 0,150 0,250 0,350 0,449 0,549 0,650 0,750 0,850 0,950 

0 0,100 0,200 0,300 0,399 0,499 0,600 0,700 0,800 0,900 1,000 


| Default Settings Column Selection Appearance 



Abbildung 32: Clusterversuch 2 - Bildungsabschluss 


Ge- 

schlecht 

Alter 

Jahres- 

gehalt 

Betriebs- 

zugehorigkeit 

Position 

Bildungs¬ 

abschluss 

m 

alt 

gering 

kurz 

arb 

Lehre 

w 

alt 

viel 

lang 

verw 

Bachelor 

m 

alt 

viel 

kurz 

manager 

Master 

m 

jung 

gering 

kurz 

arb 

Lehre 

m 

alt 

viel 

lang 

manager 

Master 

w 

jung 

gering 

kurz 

arb 

Lehre 

m 

jung 

viel 

kurz 

manager 

Master 

m 

jung 

gering 

kurz 

arb 

Lehre 

m 

alt 

gering 

lang 

arb 

ohne 

w 

jung 

gering 

kurz 

verw 

Abi 

m 

alt 

gering 

kurz 

arb 

Lehre 

w 

jung 

gering 

lang 

verw 

Abi 


Tabelle 16: Codierung Variante 3 


Tree View 



Abbildung 33: Entscheidungsbaum mit ID3 
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7 Bewertung 

Negative expectations yield negative results. Positive 
expectations yield negative results. 

Nonreciprocal Laws of expectations. 

Man vergleiche hierzu auch Abschnitt 1.3.5 auf Seite 10. 

In groften Datenmengen kann sich Wissen in verschiedensten Strukturtypen darstellen. Jedes Ver- 
fahren des Data Minings sucht nur nach einem spezifischen Strukturtyp. So kann es dazu kommen, 
dass eine Information nicht gefunden wird, die zwar vorhanden, nicht aber in dieser speziellen 
Struktur dargestellt ist. Um abschatzen zu konnen, welches Verfahren im konkreten Anwendungs- 
fall die besseren Ergebnisse liefert, empfiehlt es sich, mehrere relevante Verfahren zu testen und zu 
vergleichen. 

Zunachst ist anzumerken, dass ein Verfahren bzw. ein errechnetes Modell nur dann bewertet werden 
kann, wenn das erwartete Ergebnis zum Vergleich vorliegt oder anderweitig die Qualitat der Losung 
bewertet werden kann. So kann beispielsweise bei Clustering-Verfahren nur schwer eine Entschei- 
dung getroffen werden, ob ein Verfahren bzw. eine Clusterbildung gut oder schlecht ist. (Es sei denn 
wir untersuchen Cluster-Verfahren, ob sie bei gegebenen Beispielaufgaben die von uns gewiinschten 
Cluster erzeugen.) Geht man aber von realen Aufgaben aus (wo die gewiinschten Zielcluster eben 
nicht bekannt sind), so werden zwei unterschiedliche Verfahren mit denselben Daten eventuell zu 
unterschiedlichen Clustern fiihren. Und dann kann man keine sichere mathematische Aussage dar- 
iiber treffen, welches Ergebnis nun das bessere ist. Daher gehen wir insbesondere auf die Bewertung 
von Verfahren zur Klassihkation und Vorhersage ein. 

Auf einen wichtigen Grundsatz sollten wir uns vorab verstandigen: Werden mehrere Verfahren 
im Ergebnis als gleich gut bewertet, wird der Vorzug meistens dem Verfahren bzw. dem Modell 
gegeben, das die gesuchten Zusammenhange am einfachsten und am leichtesten nachvollziehbar 
darstellt. Dieses Prinzip nennt man Prinzip der minimalen Beschreibungslangen, engl. MDL 
- minimum, description length. Die Beschreibungslange ist dehniert als: 

• Speicherplatz zur Beschreibung einer Theorie plus 

• Speicherplatz zur Beschreibung der Fehler der Theorie 

Dieses Konzept geht auf William of Ockham, geboren in Ockham (in Surrey, England) ca. 1285 
zuriick, der postulierte, dass ein Modell desto besser sei, je einfacher es sei (Occam’s razor). 

7.1 Interessantheitsmafie 

Wir werden zunachst auf spezielle Aspekte der Bewertung von Assoziationsregeln (vgl. Abschnitt 4.4 
auf Seite 26) eingehen. 

Das Ergebnis einer Assoziationsanalyse ist oft eine grofte Menge an Regeln. Die problembezogene 
Interpretation und Bewertung der Regeln muss durch den Nutzer erfolgen. Dies kann ein erns- 
tes Problem darstellen, da die Anzahl der Regeln oft kaum iiberschaubar ist und kein generelles 
Vorgehensmodell mit einheitlichen Bewertungsgrundlagen existiert. Dieses Problem wird auch als 
post-mining rule analysis problem, bezeichnet. 

Das Ziel einer sinnvollen Interpretation ist es also, die Fiille an Informationen adaquat zu reduzieren: 

• Es ist moglich, die Regeln entsprechend bestimmter signihkanter Merkmale zu sortieren, bei¬ 
spielsweise Support oder Konhdenz. Danach lasst sich die Bedeutsamkeit einer Regeln besser 
einschatzen. 

• Die Regelmenge kann gehltert werden, d.h. Regeln, die bestimmten Kriterien entsprechen, 
werden ausgeblendet. Beispielsweise konnte man alle Regeln entfernen, deren Support geringer 
als 20% ist oder die bestimmte Begriffe aus der ursprunglichen Datenmenge enthalten. Nimmt 
man das Warenkorbbeispiel, so liefte sich nach Regeln hltern, die Kaffee und Milch enthalten. 

• Sind die Regeln nicht sehr komplex, so lassen sich grahsche Darstellungen heranziehen, die 
Korrelationen zwischen bestimmten Attributen erkennen lassen. 
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Wenn kein explizites Analyseziel verfolgt wird, kann das Durchfiihren dieser Mafinahmen schnell in 
ein Trial and Error verfallen. Es ist deshalb sinnvoll, sogenannte Interessantheitsmafle zur Bewertung 
von Regeln zu verwenden. Interessantheitsmafie stammen iiberwiegend aus der deskriptiven Statistik 
und erlauben eine Bewertung der Analyseergebnisse einer Assoziationsanalyse auf mathematischer 
Grundlage. 

7.1.1 Support 

Wie bereits beschrieben (vgl. Abschnitt 4.4.1 auf Seite 27) ist der Support ein Mafi fur die Hauhgkeit, 
mit der eine bestimmte Regel in der Datenbasis auftritt. Er wird mit reellen Werten zwischen 0 und 
1 gemessen und gibt an, welcher Anteil der Gesamtmenge von einer Regel erfasst wird. 

Leider ist es nicht moglich, allgemein zu sagen, welche Supportwerte eine Regel aufweisen muss, um 
weitere Beachtung zu verdienen. Der Support sagt nur aus, welche Tatsachen oft und welche eher 
selten vorkommen. Gleichwohl konnen seltene Items auch interessante Zusammenhange aufweisen. 
Der Support einer Regel A —> B ist dehniert durch: 

supp(A —> B) = P(A U B). 

Wir berechnen also die relative Hauhgkeit, in wievielen Datensatzen unserer Datenmenge sowohl A 
als auch B vorkommt. 

Der Support lasst sich mittel eines Venn-Diagramms veranschaulichen (Abbildung 34). Der Support 
ergibt sich aus dem Flacheninhalt der schraffierten Flache, geteilt durch die Flache der gesamten 
Menge. 



Abbildung 34: Support der Assoziationsregel A —>■ B 


7.1.2 Konfidenz 

Die Konhdenz gibt die bedingte Wahrscheinlichkeit eines Items B bei gegebenem Item A an. Sie 
stellt also die Starke des Zusammenhangs dar. Analog zum Support wird auch die Konhdenz in 
Werten zwischen 0 und 1 gemessen. 

conffr B) = P(B\A) = Snpp( ' 4 ;7 g) 

supp(A) 

Die Konhdenz ergibt sich in Abbildung 35 aus dem Verhaltnis der schraffierten Flache, also aller 
Falle, in denen sowohl A als auch B gilt, und der gestrichelt schraffierten Flache, also A. 



Abbildung 35: Konhdenz der Assoziationsregel A —)• B 





7.1 Interessantheitsmaie 
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Eine Schwache der Konfidenz ist, dass sie fragwiirdige Zusammenhange herstellt. Am Beispiel des 
Warenkorbs kann man argumentieren: Brot und Milch werden in absoluten Zahlen sehr haufig 
gekauft. Sie in einen Zusammenhang mit anderen Produkten zu setzen, ist daher wenig sinnvoll. 
Dennoch konnte man der Konfidenz nach behaupten, dass jeder, der beispielsweise Kaffee kauft, 
auch Brot kauft. Dieser statistische Zusammenhang ist jedoch sehr fragwiirdig. 

Es ist also sinnvoll, sich - neben Support und Konfidenz - weitere Interessantheitsmafie anzuschauen. 
Das obige Kaffee-Brot-Problem bekommt man durch ein weiteres Interessantheitsmah in den Griff, 
die Vollstandigkeit (completeness). 

completeness(A —> B) = P(A U B\B) 

Die Completeness ergibt sich aus dem Verhaltnis der schraffierten Flache, also aller Falle, in denen 
sowohl A als auch B gilt, und der gepunktet schraffierten Flache, also B. 



Abbildung 36: Completeness der Assoziationsregel A —>• B 


Beispiel 7.1 (Interessantheismafie fur Assoziationsregeln). Seien folgende Werte gegeben: 

• P(A) = 0,50 

• P(B) = 0,40 

• P(AUB) = 0,35 

Es ergeben sich folgende Werte: 


supp(A —*B) = P(A U B) = 0, 35 

supp (AB) 0,35 


conf (A->B) = P(B\A) = 
completeness (A —> B) = P(A U B\B) = 


supp (A) 

supp (A 


0,50 

+ B) 


= 70% 


0,35 7 


supp(.B) 0,40 8 

Die Konfidenz der Regel ist nicht sonderlich gut, allerdings wird das durch die relativ hohe Com¬ 
pleteness ausgeglichen, so dass die Regel doch ein interessanter Kandidat ist. 


7.1.3 Gain-Funktion 

Es kann vorkommen, dass eine Regel, die knapp am Support gescheitert ist, eine sehr hohe Konfidenz 
hat. In dieser Situation ist das natiirlich argerlich, dass wir eine starre Grenze durch den Support 
definiert haben. Ganz auf den Support zu verzichten geht aber auch nicht, da dann aufiert seltene 
(geringer Support) Regeln akzeptiert wiirden. 

Mit der Gain-Funktion soil dies genau verhindert werden. Es geht also darurn, einen Mix aus Support 
und Konfidenz hinzubekommen, der diese obigen Effekte verhindert. 


gain(A —> B) = supp(A B) — 6 x supp(A). 

Ob der Effekt der Reduktion des Interessantheitsmafies erwiinscht ist, hangt vom Ziel der Analyse 
ab. Der Parameter 6 kann Werte zwischen 0 und 1 annehmen, wodurch der Wert der Gain-Funktion 
stets zwischen —6 und 1 — 6 liegt. 

Ein Wert der Gain-Funktion gleich 0 besagt, dass in jedem |-ten Fall, in dem A enthalten ist, auch 
B vorkommt. Werte liber bzw. unter 0 symbolisieren einen starkeren bzw. schwacheren Zusammen¬ 
hang. 
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Bemerkung 7.1 (Gain). Woher kommt der gain ? Nun, wir fordern, dass eine Regel A -A B, die 
zwar eine hohe Konfidenz hat, andererseits aber nicht so oft vorkommt (der Support von A ist 
gering), einen geringeren Interessantheitswert als die Konfidenz bekommt. Je geringer der Support 
von A, desto holier soil die Konfidenz der Regel sein: 


conf(A —> B) > 


min conf 
supp(A) + 


Die minimale Konfidenz ist also min con f + 9, sie wird mit kleiner werdendem Support von A aber 
grofier. Wir erlauben 9 zwischen 0 und 1. Mit conf(A —> B) = konnen wir die Ungleichung 

mit supp(A) multiplizieren und erhalten: 


supp(A —> B) > min con f + supp(A) x 9 


supp(A -A B) — 9 x supp(A) > min con f 


7.1.4 p-s-Funktion 

Mit den Unzulanglichkeiten einiger Interessantheitsmafie fiir Assoziationsregeln befasste sich Gre¬ 
gory Piatetsky-Shapiro 1 . 

Er forderte, dass Interessantheitsmafie fiir Assoziationsregeln (. RI ) folgende Kriterien erfiillen miiss- 
ten: 

1. RI(A—tB) = 0 genau dann, wenn supp(A -A B) = P(A) xP(B) ist. Das Interessantheitsmafi 
sollte 0 sein, wenn A und B statistisch unabhangig sind. 

2. RI sollte mit supp(A — > B) monoton wachsen. 

3. RI sollte mit P(A) und P (B) monoton fallen. 

Kriterium 1 befasst sich mit der Situation, dass A und B statistisch unabhangig voneinander sind. 
Was heifit das? Wie viele korrekte Vorhersagen fur B wiirden wir per Zufall erwarten? Wenn wir 
dies ohne jede Restriktion tun, dann ist die Wahrscheinlichkeit fiir das zufallige Auswahlen eines 
Einkaufs, der B erfiillt, gerade P (B), also die relative Haufigkeit von B. Fordern wir nun zusatzlich, 
dass auch A erfiillt sein soil, dann sollte sich P(A) x P (B) ergeben. Kriterium 1 fordert also, dass 
RI 0 sein sollte, falls sich der Support der Regel A —>• B genaus so verhalt wie bei der zufalligen 
Auswahl von Itemsets, die A und B erfiillen. 

Kriterium 2 fordert, dass RI mit dem Support der Regel steigen sollte. Die Forderung 3, dass das 
Interessantheitsmafi RI mit der relativen Haufigkeit sowohl von A als auch B monoton fallen sollte, 
ist ebenso nachvollziehbar. 

Die Konfidenz erfiillt nur die Bedingung 2. Insbesondere Kriterium 1 wird haufig verletzt, auch 
unabhangige Mengen A und B werden meistens mit einer hohen Konfidenz bewertet. Kriterium 3 
erfiillt sie ebenso nicht, da die Konfidenz von P (B) nicht abhangt. 

Die p-s-Funktion erfiillt die obigen Restriktionen. Sie ist identisch mit der Gain-Funktion mit 9 = 
supp(B), also: 

ps(A —>B) = supp(A —>B) — supp(A) x supp(R) 

Bei dieser Funktion wird davon ausgegangen, dass der Support einer Regel hoher sein sollte, als 
der bei statistischer Unabhangigkeit. Positive Werte spiegeln einen positiven Zusammenhang wider, 
negative Werte einen negativen Zusammenhang. 


1 Piatetsky-Shapiro, G. (1991). Discovery, analysis and presentation of strong rules. In G. Piatetsky-Shapiro & W. 
J. Frawley (Eds.), Knowledge discovery in databases (pp. 229-248). Menlo Park: AAAI Press. 
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7.1.5 Lift 

Der Lift gibt an, inwiefern sich die Verteilung eines Elementes in einer Teilmenge von der in der 
Gesamtmenge unterscheidet. Werte grofier als 1 entsprechen einer positiven Korrelation. Somit 
bedeutet ein Lift von Eins eine Korrelation von Null. Ein Lift von 4 der Regel A —> B besagt 
beispielsweise, dass B innerhalb dieser Regel viermal haufiger als in der Gesamtmenge auftritt. 


lift (A -> B) 


supp(A —>• B ) 
supp(A) x supp(-B) 


conf(A -» B) 
supp (B) 


7.2 Giitemafie und Fehlerkosten 

Wie kann man die Giite einer Vorhersage quantifizieren? Ein einfacher Ansatz ist das Berechnen 
des Fehlers einer Vorhersage (Klassifikation oder numerische Vorhersage ). 

7.2.1 Fehlerraten 

Fehlerrate bei Klassifikationen Bei Klassifikationsproblemen ist unter der Fehlerrate der rela¬ 
tive Anteil der falsch klassifizierten Beispiele einer Instanzenmenge zu verstehen: 

xn i , Fehler 

fehlerrate = ——— 


Fehlerrate bei numerischer Vorhersage Bei numerischer Vorhersage wird diese absolute Aus- 
sage durch den Abstand der vorhergesagten zu den erwarteten Ergebnissen erganzt: 


Y (Realwertj — Vorhersagewert, 


Fehlerrate = 


Y Realwerq 


Es gibt eine Reihe weiterer Male fair die Bewertung numerischer Vorhersagen, s. [WF01, S. 
158], 

Erfolgsrate Um einen subjektiv besseren Eindruck zu vermitteln, wird haufig die Erfolgsrate statt 
der Fehlerrate verwendet: 

Erfolgsrate = 1 — Fehlerrate 


7.2.2 Weitere Giitemafie fiir Klassifikatoren 

Im folgenden werden wir uns weitere Giitemafie speziell fiir Klassifikatoren anschauen. Diese er- 
weitern das Konzept der Fehlerraten. Wir betrachten dazu einen Klassifikator, der gute Kunden 
vorhersagen soil. Man unterscheidet 4 Falle: 

TP (richtig positiv) Ein guter Kunde wird als guter erkannt. 

TN (richtig negativ) Ein nicht guter Kunde wird als nicht guter erkannt. 

FP (falsch positiv) Ein nicht guter Kunde wird als guter erkannt. 

FN (falsch negativ) Ein guter Kunde wird als nicht guter erkannt. 

Darauf aufbauend definiert man eine Reihe von abgeleiteten Kenngrofien [RunlO, S. 86ff.]. 
Korrekte Klassifikationen T=TP+TN 
Falsche Klassifikationen F=FP+FN 
Relevanz R=TP+FN (Anzahl der guten Kunden) 

Irrelevanz I=FP+TN (Anzahl der nicht guten Kunden) 

Positivitat P=TP+FP (Anzahl der als gut klassifizierten Kunden) 

Negativitat N=TN+FN (Anzahl der als nicht gut klassifizierten Kunden) 
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Korrektheitsrate T/n (Anteil der korrekt klassifizierten Kunden) 

Inkorrektheitsrate F/n (Anteil der nicht korrekt klassifizierten Kunden) 

Richtig-positiv-Rate TPR=TP/R (Wie oft wurde ein guter Kunde auch als solcher klassifiziert.) 
(Sensitivitat, Trefferquote, Recall) 

Richtig-negativ-Rate TNR=TN/I (Wie oft wurde ein nicht guter Kunde auch als solcher klassi¬ 
fiziert.) 

Falsch-positiv-Rate FPR=FP/I (Wie oft wurde ein nicht guter Kunde als guter klassifiziert.) 

Falsch-negativ-Rate FNR=FN/R (Wie oft wurde ein guter Kunde als nicht guter klassifiziert.) 

Positiver Vorhersagewert, Genauigkeit, Prazision TP/P (Wie oft ist ein als gut vorherge- 
sagter Kunde ein guter Kunde?) 

Negativer Vorhersagewert TN/N (Wie oft ist ein als nicht gut vorhergesagter Kunde ein nicht 
guter Kunde?) 

Negative Falschklassifikationsrate FN/N (Wie oft ist ein als nicht gut vorhergesagter Kunde 
ein guter Kunde?) 

Positive Falschklassifikationsrate FP/P (Wie oft ist ein als gut vorhergesagter Kunde ein nicht 
guter Kunde?) 

Meist nimmt man mehrere Kenngrofien zur Bewertung eines Klassifikators, beispielsweise TPR und 
FPR. In einer Receiver-Operating-Curve (ROC-Diagramm) tragt man TPR und FPR gegeneinander 
auf. Haufig wird auch das PR-Diagramm verwendet, wo man Precision und Recall gegeneinander 
auftragt. 

7.2.3 Fehlerkosten 

Unter betriebswirtschaftlichen Gesichtspunkten ist noch zu beachten, dass sich die aufgrund ei¬ 
ner Klassifikation getroffenen Entscheidungen unterschiedlich auf Gewinn bzw\ Verlust einer Firma 
auswirken konnen. Unter Beriicksichtigung dieses Aspekts lassen sich fur ein Verfahren auch die 
sogenannten Fehlerkosten berechnen. Wird beispielsweise einem Bankkunden aufgrund der Klas¬ 
sifikation des Verfahrens ein Kredit bewilligt, den dieser nicht zuriickzahlt, entstehen zusatzliche 
Kosten - moglicherweise sogar in Hohe der vollen Kreditsumme. Wird aber jemandem ein Kre¬ 
dit verweigert, der ihn zuriickgezahlt hatte, entstehen lediglich Zinseinbufien. Fehler ist also nicht 
gleich Fehler. Die Kosten eines Fehlers bei einer Entscheidung fur den Kredit sind hoher als bei 
einer Entscheidung gegen den Kredit. Wenn nun verschiedene Fehlerarten mit ihren spezifischen 
Kosten ungleich verteilt auftreten, ist meist nicht das Verfahren mit der minimalen, sondern mit 
der betriebswirtschaftlich optimalen Fehlerrate gesucht. 

Man kann hierzu eine Kostenmatrix oder eine Bonusmatrix aufstellen, die je nach Vorhersagetreffer 
oder -fehler Plus- bzw. Minuspunkte vergibt. 



Vorhersage 


0 1 

0 

10 -20 

1 

-30 20 


Wird ein Datensatz des Typs 0 mit 1 vorhergesagt, so kostet uns das 20, eine korrekte Vorhersage 
fur 0 bringt uns 10. Ziel ist nun naturlich nicht mehr, den Prozentsatz der korrekt vorhergesagten 
Datensatze, sondern den Gewinn zu maximieren. 

7.3 Trainings- und Testmengen 

Alle Data-Mining-Verfahren zur Vorhersage beruhen darauf, dass sie sich die ihnen prasentierten 
Muster in irgendeiner Weise merken, wenn auch nicht explizit jedes einzelne. So sollte jedes Verfah¬ 
ren die ihm haufig genug prasentierten Beispiele auch richtig bearbeiten. Was aber meistens mehr 
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interessiert, ist die Frage nach dem Verhalten des Verfahrens bei neuen Beispielen. Es ist also sinn- 
voll, neben den Trainingsdaten auch noch einen Vorrat an Beispielen zu halten, der ausscliliefslich 
zum Testen verwendet wird. Nun stehen Daten zwar haufig in grofier, aber nicht unbeschrank- 
ter Menge zur Verfiigung. Im folgenden werden Verfahren vorgestellt, die eine fiir Trainingszwecke 
vorliegende Instanzenmenge in Trainings- und Testmengen zerlegen. 

Um verschiedene Data-Mining-Verfahren sinnvoll miteinander vergleichen zu konnen, sollte idea- 
lerweise fiir alle Verfahren dieselbe Zerlegung der Instanzenmenge verwendet werden. So werden 
beide mit denselben Daten trainiert bzw. getestet. Dies gewahrleistet eine gute Vergleichbarkeit der 
Fehlerraten beider Verfahren. 

7.3.1 Holdout 

Beim Holdout wird die Instanzenmenge in zwei Tcilmengen zerlegt, wobei die eine zum Trainieren 
und die andere zum Testen verwendet wird. 

Train U Test = Instance 


7.3.2 Stratifikation 

Bei absolut zufalligem Holdout kann das Problem auftreten, dass die Testdaten Beispiele enthalten, 
zu denen keine ahnlichen in den Trainingsdaten vorkommen - oder andersherum. Dadurch wiirden 
die Fehlerraten verfiilscht. Mit der Stratifikation wird nun versucht, die Teilung so vorzunehmen, 
dass sowohl in der Trainings- als auch in der Testmenge die Hauhgkeitsverteilung h der Klassen K 
die gleiche wie in der gesamten Instanzenmenge ist. 

VkeK: h[ QStance = /ij rain = hf st 


7.3.3 Kreuzvalidierung 

Bei der Kreuzvalidierung wird die zur Verfiigung stehende Datenmenge in V gleich grofie Teilmengen 
zerlegt. Nun wird eine dieser Untermengen als Testmenge zuriickbehalten, mit den anderen wird das 
Verfahren trainiert. Auf der zuriickbehaltenen Testmenge wird anschliefiend die Fehlerrate ermittelt. 
Dies wird mit jeder anderen Teilmenge als Testmenge wiederholt. Die Fehlerrate des Verfahrens 
wird als Mittelwert der jeweiligen Fehlerraten berechnet. Wiederholt man die Validierung mehrfach, 
liefert der Mittelwert der Fehlerraten der einzelnen Validierungen eine genauere Fehlerrate fiir das 
Verfahren. Eine Modifikation der Kreuzvalidierung ist das Bootstrapping, wo man zulasst, dass sich 
die Stichproben iiberschneiden. 


Fehlerrate 


v 

Y Fehlerratej 

i— 1 

v 


7.3.4 Leave-one-out 

Das Leave-one-out-Verfahren ist im wesentlichen identisch mit der Kreuzvalidierung. Hierbei wird 
jedoch die IV-elementige Instanzenmenge in genau N Teilmengen zerlegt. 

| Instance | 

Y Fehlerrate^ 

Fehlerrate = —’ l= — r - ; - 

| Instance | 

7.4 Bewertung von Clustern 

Eine schwierige Frage im Kontex Clustering ist die Bewertung der Qualitat einer Clusterbildung. 
Oder anders formuliert: Wann ist eine Clusterbildung besser als eine andere? 

Ansatz 1: Eine erste Forderung ist, dass die einzelnen Cluster moglichst kompakt sind. Dies kann 
man z.B. durch die Sumrne der Abweichungen der Objekte eines Clusters vom Clustermittelpunkt 
(oder deren Quadrate) messen. Diese Abweichungen summiert man nun liber alle Cluster. Das 
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Resultat sollte moglichst minimal sein. Wir gehen hier zunachst davon aus, dass wir eine feste 
Clusteranzahl k vorgegeben haben. Man kann also die Giite eines Clusterings C wie folgt messen: 

k 

Gi = ^ ^ dist(x, rrii) 2 

i =1 x£Ci 

Hier ist mi der Mittelpunkt von Cluster Cj. Beachten Sie, dass die Qualitat der Clusterbildung 
umso besser ist, je kleiner der Wert ist. Giinstiger ist es also, den Reziprokwert als Giitemafi zu 
nehmen: 


Giitei = —- 

Z Z dist(x,mj ) 2 

i=l xdCi 

Ansatz 2: Wir konnen ebenso fordern, dass die Cluster moglichst weit voneinander entfernt liegen. 
Man summiert die Quadrate der Distanzen zwischen alien Clustermittelpunkten. 

Giite 2 = dist(mj, mQ 2 

1 <i<j<k 

Man kann die Ansatze kombinieren, indem man beide Giitemafie multipliziert: 

Giite = Giitei x Giite 2 

Beim ersten Giitemafi kann man alternativ auch den maximalen Abstand zweier Punkte in einem 
Cluster nehmen. Ebenso konnte man zu jedem Punkt die Distanz zu seinem ndchsten Nachbarn (im 
gleichen Cluster) nehmen und davon das Maximum iiber alle Punkte bilden (minimum distance, 
single linkage). 

Bisher sind wir von einer festen Clusteranzahl k ausgegangen. Andert sich etwas, wenn wir k variabel 
lassen? Wir suchen also nach einem beliebigen Clustering, wo aber eben auch die Anzahl der Cluster 
nicht vorgegeben ist. 

Sehen Sie das Problem? Nehmen wir unsere obigen Giitemafie, ware das Resultat ein Clustering, 
wo alle Objekte separat einen Cluster bilden. Die Qualitat nach Giitemafi 1 ware dann maximal, 
da der Nenner 0 ist; besser geht das nicht. Auch nach Giitemafi 2 ware die Giite maximal. 

Wir diskutieren dieses Problem hier nicht weiter. Klar ist aber, dass mit steigender Anzahl der 
Cluster die Qualitat auch kiinstlich bestraft warden muss. 
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A Anhang - KNIME 

Experience varies directly with equipment ruined. 

Horner’s Five Thumb Postulate 
Arthur Bloch, Murphy’s Law 


KNIME lauft unter alien Betriebssystemen, erforderlich ist JAVA. Im folgenden soil nur ein kurzer 
Einstieg in den Urngang mit KNIME gegeben werden. 

Der Konstanz Infomation-Miner, kurz KNIME ist ein eigenstandiges Projekt einer kostenlosen Data- 
Mining-Applikation der Universitat Konstanz. Es zeichnet sich durch eine sehr einfache Drag&Drop- 
Bedienung sowie einer grofien Anzahl an verschiedenen Algorithmen und Methoden aus. Der Aufbau 
ist modular und wird standig urn neue Inhalte erweitert, die leicht intern iiber das Programm gela- 
den werden konnen. Neben eigenen Algorithmen lasst sich die Software so uni eine Vielzahl weitere 
Inhalte erweitern, so sind z.B. nahezu alle Weka-Verfahren fur KNIME umgesetzt worden. KNIME 
ist in seiner Leistungsfahigkeit durchaus vergleichbar mit einer Vielzahl von kommerziellen Data- 
Mining-Programmen. Der komplette Miningprozess vom Datenimport iiber Datenvorverarbeitung 
und Datenanalyse bis hin zur Darstellung der Ergebnisse lasst sich fast vollstandig mit den bereit- 
gestellten Methoden bewerkstelligen. 

Nach dem Start von KNIME offnet sich das in Abb. 37 dargestellte Fenster. 
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■A Node Description S3 


File Reader 


This node can be used to read data from 
an ASCH file or URL location, ft can be 
configured to read various formats. 

When you open the node's configuration 
dialog and provide a filename, it tries to 
guess the reader's settings by analyzing 
the content of the file. Check the results of 
these settings in the preview table. If the 
data shown is not correct or an error is 
reported, you can adjust the settings 
manually (see below). 

The file analysis runs in the background 
and can be cut short by clicking the "Quick 
scan", which shows if the analysis takes 
longer. In this case the file is not analyzed 
completely, but only the first fifty lines are 
taken into account. It could happen then, 
that the preview appears looking fine, but 
the execution of the File Reader fails, 
when it reads the lines it didn't analyze. 
Thus it is recommended you check the 
settings, when you cut an analysis short. 

Dialog Options 

ASCII file location 

Enter a valid file name or URL. 

When you press ENTER, the file is 

analwpri and fhp nrp-spt. 


9 S 


Abbildung 37: KNIME - Start-Fenster 


Die Oberflache enthalt folgende Komponenten: 

1. Workflow-Fenster 

• primares Modellierungsfenster des Miningprozesses 

• Verwaltung und Konfiguration der einzelnen Nodes (Rechtsklick auf die jeweilige Node) 

• Verbindungspfeile signalisieren den Datenfluss 

2. Projektfenster 

• Verwaltung, Erstellung, Import und Export von Projekten 

3. Nodefenster Bereitstellung von Algorithmen und Methoden zum: 

• Datenimport/-export aus Dateien oder Datenbanken 
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• Datenvorverarbeitung und Datenmanipulation 

• Grundlegende statistische Analysen 

• Algorithmen und Methoden, getrennt nach KNIME eigene und Weka Methoden 
4. Nodebeschreibung 

• Detaillierte Beschreibung samtlicher Nodes z.B.: 

• Beschreibung des Algorithmus 

• benotigte Inputformatierungen der Daten 

• Art des erzeugten Outputs 

• kurze Beschreibung der Konfigurationsnroglichkeiten 
Abbildung 38 zeigt den Workflow fur das Wetterbeispiel. 

File Edit View Search Run Node Help 

rt - y ® < 4 * ioo% 
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Abbildung 38: KNIME - Wetterbeispiel 

Urn eine Datei zu importieren, muss in der Nodeauswahl unter 10 im Abschnitt Read der Filerea- 
der ausgewahlt und auf die Arbeitsflache gezogen werden. Gleichzeitig konnen zusatzlich aus dem 
Abschnitt Mining im Unterverzeichnis Decision Tree die Decision-Tree-Learner- und Decision-Tree- 
Predictor-Nodes in das Arbeitsfenster gezogen werden. Danach werden die Nodes entsprechend der 
jeweiligen In- und Outputpfade miteinander verbunden. Uber einen Rechtsklick auf den Filereader 
wird im erscheinenden Menu der Eintrag Configure ausgewahlt. Nun kann der Node konfiguriert wer¬ 
den. Zuerst wird die zu untersuchende Datei ausgewahlt, der Filereadernode unterstiitzt eine Viel- 
zahl von unterschiedlichen Formaten, insbesondere naturlich Dateien im TXT- und CSV-Format. 
In einigen Fallen milssen zusatzliche Einstellungen vorgenommen werden, um die Datei vollstandig 
und fehlerfrei importieren zu konnen. Diese Einstellungen konnen unter Basic Settings im Konfi- 
gurationsmenii vorgenommen werden. 1st eine Datei ausgewahlt, wird das Konfigurationsmemi mit 
einem Klick auf den OK-Button geschlossen. Bei richtiger Ausfiihrung verfarbt sich die Ampel unter 
dem Node von rot zu gelb. Mit einem weiteren Rechtsklick auf den Node wird im Menu der Eintrag 
Execute ausgewahlt. War der Vorgang fehlerfrei, schaltet die Ampel auf griin. 

Jetzt muss der Decision Tree Learner konfiguriert werden. Im Konfigurationsmemi wahlt man un¬ 
ter dem Eintrag Class Column das Zielmerkmal aus, die restlichen Einstellungen konnen i.allg. 
unvertindert ubernommen werden. Abschliefiend wird der Node ausgefiihrt. 
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Um diesen Entscheidungsbaum nun auch testen zu konnen, muss man vorab die gegebene Beispiel- 
menge in Trainings- und Testmenge zerlegen. Dies macht der Partitioning- Node. Mit der Trainings- 
menge wird ein Modell erstellt (Abb. 39). 
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This node uses an existing decision tree 
(passed in through the model port) to 
predict the class value for new patterns. 
The Node can be configured as follows: 


Dialog Options 


Number of patterns for HiLite 

Determines the maximum number 
of patterns the tree will store to 
support HiLiting. 
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Abbildung 39: KNIME - Trainings- und Testmenge 


Nun kann man mit Hilfe des Decision Tree Predictor den gelernten Entscheidungsbaum auf die 
Testmenge anwenden (Rechtsklick, Classified Data). Der Predictor fiigt eine zusatzlich Spalte mit 
der vorhergesagten Klassifikation fur den jeweiligen Datensatz ein (Abb. 40). 

File 


Table 'data.trn+default" - Rows: 14 Spec - Columns: 6 I Properties 


Row ID s PlayTennis 

S Prediction (DecTree) 

S Outlook 

S Temperature 

D1 

no 

yes 

sunny 

hot 

D2 

no 

yes 

sunny 

hot 

D3 

yes 

yes 

overcast 

hot 

D4 

yes 

no 

rain 

mild 

D5 

yes 

no 

rain 

cool 

D6 

no 

no 

rain 

cool 

D7 

yes 

yes 

overcast 

cool 

D8 

no 

yes 

sunny 

mild 

D9 

yes 

yes 

sunny 

cool 

DIO 

yes 

no 

rain 

mild 

Dll 

yes 

yes 

sunny 

mild 

D12 

yes 

yes 

overcast 

mild 

D13 

yes 

yes 

overcast 

hot 

D14 

no 

no 

rain 

mild 


Abbildung 40: KNIME - Wetterbeispiel 
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B Anhang - WEKA 

When working on a project, if you put away a tool 
that you are certain you’re finished with, you will need 
it instantly. 

Law of Annoyance 


Eine Alternative zu KNIME ist WEKA, allerdings ist die Oberflache nicht so benutzerfreundlich. 
WEKA ist ein fur Hochschulen frei verfiigbares Data-Mining-Tool, WEKA steht fiir Waikato En¬ 
vironment for Knowledge Analysis. In WEKA sind viele Algorithmen implementiert, s. hierzu 
[WFH11], WEKA lauft unter alien Betriebssystemen, wo Java lauft. Es gibt eine Reihe von WWW- 
Seiten, die beim Einstieg hilfreich sind. Man findet sowohl WEKA als auch etliche Infos unter 
http://www.cs.waikato.ac.nz/~ml/weka/index.html. Im folgenden soil nur ein kurzer Einstieg in 
den Umgang mit WEKA gegeben werden. 

Man startet WEKA mit java -jar weka. jar. Es offnet sich das in Abb. 41 dargestellte Fenster. 


WEMZnnSEEEBE" - n'x 


Waikato Environment for 
Knowledge Analysis 

Version 3.4.4 

(0 1999 - 2005 
University of Waikato 
New Zealand 


•OSSfi 





GUI 

Simple CLI 

Explorer 

Experimenter 

KnowledgeFlow 


Abbildung 41: WEKA - Start-Fenster 


Wir werden mit dem Explorer arbeiten. Es kann im Weka GUI Chooser aber auch die Experimen- 
tierumgebung (Experimenter) und ein Kommandozeilenfenster geoffnet werden. 

In einem neuen Fenster offnet sich der Weka Explorer (Abb. 42), welcher eine Art Registertabelle 
mit den Registern Preprocess, Classify, Cluster, Associate, Select attributes und Visualize enthalt. 
Diese werden nun im einzelnen vorgestellt. 

Im Register Preprocess konnen Einstellungen zu den zu verwendenden Datensatzen vorgenommen 
werden. Datensatze konnen aus einer Datei (1), fiber eine URL (2) oder aus einer Datenbank (3) 
in’s Wekasystem geladen werden (Abb. 42). 

Dateien werden im ARFF-Format erwartet. ARFF-Dateien bestehen aus einem Kopf und einem 
Korper. Im Kopf stehen die Schliisselworte, die mit @ beginnen, wie ©relation, ©attribute, ©da¬ 
ta. Es werden nur nominale und numerische Daten erkannt. Bei nominalen Attributen folgt die 
Wertemenge in geschweiften Klammern ({...}), bei numerischen Attributen folgt das Schliisselwort 
numeric oder real. Zeilen, die mit % beginnen, sind Kommentare. Im Korper stehen die eigentli- 
chen Daten. Ein Datensatz bzw. eine Instanz steht in einer Zeile, die einzelnen Attribute werden 
durch Kommata getrennt, fehlende Werte werden durch ? ersetzt. 

Beispiel B.l. 

©relation weather.symbolic 


©attribute outlook {sunny, overcast, rainy} 
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!ttx 


Open file... 


Open URL.. 

open DB... 

Undo 

Ediu. 


Choose None 


Current relation 
Relation: None 
Instances: None 
Attributes 


All 


Attributes: None 


Selected attribute 
Name: None 
Missing: None 


Distinct: None 


Type: None 
Unique: None 



Status 

Welcome to the Weka Explorer 


Log | 


Abbildung 42: WEKA - Explorer 


©attribute temperature {hot, mild, cool} 

©attribute humidity {high, normal} 

©attribute windy {TRUE, FALSE} 

©attribute play {yes, no} 

©data 

sunny,hot,high, FALSE, no 
sunny,hot,high, TRUE, no 
overcast,hot,high, FALSE, yes 
rainy,mild,high, FALSE, yes 
rainy,cool,normal, FALSE ,yes 
rainy,cool,normal, TRUE ,no 
overcast,cool,normal, TRUE ,yes 
sunny,mild,high, FALSE ,no 
sunny,cool,normal, FALSE ,yes 
rainy,mild,normal, FALSE ,yes 
sunny,miId,normal, TRUE ,ye s 
overcast,mild,high, TRUE, yes 
overcast,hot,normal, FALSE ,yes 
rainy,mild,high, TRUE ,no 

Ladt man diese Datei in’s Wekasystem (Abb. 43), erscheinen die Attributnamen. Hier kann ausge- 
wahlt werden, welche Attribute im weiteren Verlauf verwendet werden konnen. 

WEKA bietet eine ganze Reihe von Filtern an, mit denen man die Daten vorverarbeiten kann. 

Der Programmteil Classify dient (iiberraschenderweise ...) zum Klassifizieren. In WEKA sind etli- 
che Klassifizierer implementiert. Wahlt man jetzt z.B. den ID3-Algorithmus (unter Choose/Trees) 
und startet diesen, so bekommt man im rechten Teilfenster das Resultat der Berechnung (Abb. 44). 
Man kann auswahlen, auf welchen Daten gelernt werden soli: 

Use training set Gesamte Datenmenge wird zum Lernen benutzt. 


























































B ANHANG - WEKA 



Abbildung 43: WEKA - Preprocessing 


Hlx 


Preprocess [ Classify f Cluster Associate Select attributes Visualize 

Classifier 


Choose Id3 


Test options 
O Use training set 
O Supplied test set 
O Cross-validation is 1 10 

® Percentage split % |66 


More options... 


C'Jom) play 


Start 


Result list (fight-click for options) 


17:12:49 - trees.ld3 


Classifier output 

Time taken to build model: 0.01 

seconds 



-*■ 

=== Evaluation on test split === 
=== Summary === 





Correctly Classified Instances 


3 

60 % 


Incorrectly Classified Instances 

2 

40 % 


Kappa statistic 


0 



Mean absolute error 


0.4 



Root mean squared error 


0.6325 



Relative absolute error 


84.6154 % 



Root relative squared error 


128.7453 % 



Total Number of Instances 


5 



=== Detailed Accuracy By Class = 

— 




TP Rate FP Rate Precision 

Recall 

F-Measure 

Class 


1 1 0.6 

1 

0.75 

yes 


0 0 0 

0 

0 

no 


===== Confusion Matrix = 





a b <-- classified as 

3 0 | a = yes 

2 0 | b = no 






Status 

OK 


Log 


Abbildung 44: WEKA - ID3 
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Supplied test set Eine separate Datei kann zum Lernen angegeben werden. 

Cross validation Gegebene Menge wird mittels Kreuzvalidierung gesplittet (vgl. Abschnitt 7.3.3). 
Percentage split Prozentuale Aufteilung der gegebenen Menge in Traings- und Testmenge. 

Analog sieht das Vorgehen beim Clustern aus: 

• Man wahlt einen Algorithmus aus. 

• Die Trainingsmenge wird definiert. 

• Start. 

Ein Hinweis noch: Man kann sich, wenn man im linken unteren Fenster auf einen Test klickt, mit 
der rechten Maustaste eine Visualisierung generieren lassen. 


90 


C ANHANG ENTROPIE 


C Anhang - Entropie 

The probability of winning the lottery is slightly greater 
if you buy a ticket. 

Yellin’s Law 


C.l Variante 1 

Sei E ein Ereignis, das mit der Wahrscheinlichkeit p(E) > 0 eintritt. Mit 


1(E) = log 2 


1 

P(E) 


bezeichnen wir die Inform,ationseinheiten, die das Eintreten des Ereignis E enthalt. 1st p(E) = 1, 
d.h. wir haben es mit dem sicheren Ereignis zu tun, dann steckt im Eintreten des Ereignisses keinerlei 
Information, da es ja sicher ist. Es gilt 1(E) = 0, was dies korrekt widerspiegelt. Wann erreichen 
wir 1(E) = 1? Wenn p(E) = \ ist, d.h. wenn wir zwei gleichwahrscheinliche Ereignisse haben. Je 
unwahrscheinlicher das Ereignis wird, desto grofier wird 1(E). Auch dies entspricht unserer Intuition: 


Je unwahrscheinlicher ein Ereignis, desto grofier der Informationsgehalt, dass es eintritt. 


Nun betrachten wir ein Zufallsexperiment. n Ereignisse ai, a2,03,..., a n sind moglich, und zwar mit 
den Wahrscheinlichkeiten Pi,P 2,P3, ■ ■ ■ ,Pn ■ Dabei setzen wir natiirlich voraus: 

n 

X> = 1 

i=l 

Pi> 0 

Falls das Ereignis ai eintritt, dann erhalten wir I(af) = log 2 Bits an Informationen. Das Ereignis 
tritt mit einer Wahrscheinlichkeit von pi ein. Folglich ist die mittlere Informationsgrofie, die man 
erhalt: 

n n 1 

V pj( ai ) = V pi log 2 — 

“ “ Pi 

1=1 1=1 

Auf dieser Basis konnen wir nun die Entropie definieren: 

Definition C.l (Entropie). 


n 

H n := H n (pi,p 2 ,... ,p n ) = ~^2pilog 2 (pi) 

2—1 


Natiirlich setzen wir im Fall Pi = 0 den Summanden auf 0. 

Wir konnen I(ai) als diejenige Information interpretieren, die wir benotigen, um zu spezifizieren, 
dass ai eintritt. 

H n kann man als mittlere Informationsgrofie pro Ausgang des Zufallsexperiments auffassen. Man 
lcann H aber auch als mittlere Unsicherheit interpretieren, die ein Zuschauer vor dem Experiment 
hat. 


C.2 Variante 2 

Die 2. Variante der Veranschaulichung des Entropiebegriffs stammt aus der Kryptografie und ent- 
wickelt den Entropiebegriff auf der Basis von Kodierungen ([PM10, S. 233 ff.]). 

Ein Bit ist eine binare Zahl. Man kann mit ihr 2 Informationen darstellen, also 2 Dinge voneinander 
unterscheiden. Mit 2 Bits kann man 4 Dinge kodieren (00, 01, 10, 11), mit 3 analog 8. Allgemein 
kann man mit n Bits 2 n unterscheiden. 

Umgekehrt konnen wir also n unterschiedliche Dinge mit log 2 (n) darstellen. 

Wenn wir aber die Wahrscheinlichkeiten fur das Auftreten eines Ereignisses in Betracht ziehen, dann 
konnen wir dies sogar verbessern. 

Wir wollen die Elemente der Menge {a, b, c, d, e} unterscheiden und betrachten dafiir folgende 
Binarkodierung: 



C.2 Variante 2 
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a 0 b 10 c 110 

d 1110 e 1111 

Die Wahrscheinlichkeiten fur das Auftreten der Elemente seien: p(a) = p(b) = p(c) = |, 
P(d) = p(e) = yg. 

Diese Kodierung nutzt also manchmal 1 Bit (a), manchmal 2, 3 oder 4 (d und e). 

Im Mittel nutzt diese Kodierung - jetzt miissen wir die Wahrscheinlichkeiten fur das Auftreten des 
jeweiligen Elements beriicksichtigen - diese Bit-Anzahl: 

p(a) x 1 + p(b) x 2 + p(c) x 3 + p(d) x 4 + p(e) x 4 = 

1 l 2 | 3 |_4_|_4_ _ 15 _ -I 07 c 

2'4'8‘16'16 8 — 1 ’°'° 


Und dies ist natiirlich besser als eine Kodierung mittels 3 Bit, die man gemafi aufgerundetem 
Logarithmus log 2 (5) brauchte. 

Mit dieser Kodierung brauchen wir also 1 Bit, um a von den anderen zu unterscheiden. Das ist 
— log 2 (p(a)) = 1. Wir brauchen 4 Bits, um d und e von den anderen Elementen zu unterscheiden. 
Das ist — \og 2 (p(d)) = 4. 

Wir bauen nun eine Kodierung, die fur die Kodierung von x genau — log 2 (p(x)) Bits (bzw. die 
nachstgrofiere natiirliche Zahl) benutzt. Und nun ist klar, dass man fur eine Informationsubertragung 
im Durchschnitt 


n 

^2 -Pi log 2 {pi) 

i =1 

Bits braucht. Und dies ist genau die Entropie. 

Auf diesem Ansatz basiert die Huffman-Kodierung, die in der Kryptografie benutzt wird. 
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Verstandlichkeit, 11 
Visualisierung, 15 

Wahrscheinlichkeit, 58 
Warenkorbanalyse, 21 
Web Mining, 13, 22 

Web Content Mining, 22 
Web Log Mining, 22 
Web Usage Mining, 22 
WEKA, 84 
Windowing, 65 
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